جدول المحتويات
في ديسمبر 2023، نشر تسعة باحثين دراسة تتعلق بنموذج لغوي متعدد الوسائط. هذا النموذج تميز بقدرته على فهم الإشارات بلغة طبيعية تتعلق بأجزاء معينة من الصور. عملت آبل على تطوير هذا النموذج من خلال نشر مستندات متابعة، مما أدى إلى توسيع مجموعة النماذج الخاصة بها. النموذج النهائي، الذي يحمل اسم Ferret-UI، يتضمن نسخًا مختلفة مثل Ferret-UI 2 وFerretv2. يتمتع Ferret-UI بقدرة استثنائية على التفاعل مع واجهات المستخدم، مما يجعله قادرًا على التفاعل مع التطبيقات.
توسيع قدرات Ferret-UI Lite
تم تطوير النموذج الأصلي باستخدام 13 مليار معلمة، مع التركيز على فهم واجهات المستخدم المحمولة. على الرغم من أن Ferret-UI Lite يعتبر نموذجًا أخف وزنًا، إلا أنه لا يزال منافسًا قويًا. وفقًا لمقال جديد، حقق الباحثون تقدمًا كبيرًا في أنظمة واجهات المستخدم المتعددة.
الهدف هو تسريع العديد من المهام التي تتطلب تفاعل الوكلاء مع واجهات المستخدم. عادةً ما تكون هذه الأنشطة معقدة وتستهلك الكثير من الموارد. Ferret-UI Lite يعمل مع 3 مليارات معلمة، ويعتمد على بيانات تدريب حقيقية وصناعية، بالإضافة إلى تقنيات قوية مثل القص والتكبير والتعلم الموجه.
آلية عمل Ferret-UI باستخدام شاشة من متجر التطبيقات
ما يميز Ferret-UI Lite هو خفته، حيث يتفوق على نماذج أخرى تحتوي على 24 مرة من عدد المعلمات، لكنه يحتفظ بقدرات محددة مثل التقنيات المذكورة سابقًا. يعتمد النموذج على نوع من التنبؤ الأولي، ثم يقوم بإعادة التنبؤ في الجزء المقصوص.
آلية عمل Ferret-UI Lite
توسيع نطاق العمل إلى بيئات متعددة
على عكس النماذج السابقة التي اعتمدت على لقطات شاشة من آيفون، تم تدريب Ferret-UI Lite على بيئات واجهات مستخدم أخرى، بما في ذلك أندرويد. لم يوضح الباحثون سبب اختيارهم هذا النموذج، لكن ربما يعود ذلك إلى توفر المزيد من البيانات لاختبار الوكلاء.
آلية عمل Ferret-UI Lite في القص
الخطوة التالية هي تحسين التفاعلات المعقدة التي تتطلب خطوات متعددة. يتمتع Ferret-UI Lite بأداء إيجابي في المهام البسيطة، مما يجعله وكيلًا محليًا خاصًا يمكنه التفاعل مع أي واجهة بناءً على طلب المستخدم. هذا إنجاز كبير في حد ذاته. سنرى ما هي النماذج الجديدة التي ستظهر نتيجة لهذا العمل.
رأي بوابة الذكاء الاصطناعي
تعتبر جهود آبل في تطوير نموذج Ferret-UI Lite خطوة هامة نحو تحسين التفاعل بين المستخدمين والتطبيقات. هذا النموذج لا يقتصر على بيئات آبل فقط، بل يمتد ليشمل أنظمة أخرى مثل أندرويد، مما يعكس رؤية شاملة لتوسيع نطاق الذكاء الاصطناعي. كيف ترى مستقبل التفاعل بين الذكاء الاصطناعي والتطبيقات في الأجهزة المحمولة؟
المصدر: الرابط الأصلي