اصدرت شركة ميتا تقييمًا لنموذجها الجديد المسمى Chameleon، الذي يعتبر رد فعل على النماذج المتقدمة الصادرة عن Frontier Labs، مع تحول المنافسة في مجال الذكاء الاصطناعي التوليدي نحو النماذج متعددة الوسائط.
تم تصميم Chameleon بشكل متعدد الوسائط من البداية، بدلاً من تجميع مكونات منفصلة بطرق متنوعة. وبالرغم من عدم طرح ميتا للنموذج بعد، إلا أن التجارب الأولية تشير إلى تحقيق أداء متطور في مهام شتى، مثل التعليق على الصور والإجابة على الأسئلة المرئية، في حين أنه يحافظ على كفاءته في المهام النصية فقط.
يفتح نموذج Chameleon الباب أمام استخدامات جديدة للذكاء الاصطناعي التي تتطلب فهماً عميقاً للمعلومات المرئية والنصية. يستند هذا النموذج إلى نهج جديد في تدريب النماذج متعددة الوسائط، حيث يعالج النصوص والصور كرموز مميزة منفصلة. وعلى عكس الأساليب السابقة، يستخدم Chameleon معمارية المحولات الموحدة، متخلياً عن وحدات التشفير وفك التشفير المنفصلة للطرق المتنوعة كما هو الحال في معماريات أخرى مثل Unified-IO 2.
تم تصميم النموذج ليستفيد من مزيج متشابك من الصور والنصوص والتعليمات البرمجية والوسائط الأخرى. يقوم Chameleon بتحويل الصور إلى رموز مميزة منفصلة بشكل كامل، تمامًا كما تتعامل النماذج اللغوية مع الكلمات، ويستخدم مفردات موحدة تتكون من النصوص والصور والتعليمات البرمجية.
وفقًا للباحثين، يُعتبر Gemini النموذج الأقرب إلى Chameleon، على الرغم من استخدام نموذج جوجل وحدات ترميز الصور المنفصلة في مرحلة الإنشاء، بينما يعالج Chameleon الرموز المميزة شاملًا ويولدها.
تم تدريب Chameleon على مرحلتين باستخدام مجموعة بيانات ضخمة تحتوي على 4.4 تريليون رمز مميز من النصوص والصور والنصوص والتسلسلات المتداخلة منها. ونجحت شرطة المدينة في تدريب الحرامي المكون من 34 مليار معلمة باستخدام 10 تريليون رمز مميز متعدد الوسائط.
ووفقًا للتجارب التي تم ذكرها في الورقة البحثية، يمكن لـ “Chameleon” أن يؤدي مجموعة متنوعة من المهام النصية والمتعددة الوسائط بفعالية كبيرة. وقد أظهر أداءً متقدمًا في الإجابة على الأسئلة المرئية ومعايير التعليق على الصور، متفوقًا على نماذج مثل “فلامينغو” و “آيديفيكس” و “لافا-1.5”.
يقدم “Chameleon” إمكانيات جديدة لإنشاء وتوليد محتوى مختلط الوسائط، خصوصا عندما تتطلب الحاجة استجابات تجمع بين النصوص والصور. وفي أحد الاختبارات، أظهر نموذج ميتا أن الأفراد يفضلون استخدام “Chameleon” بدلا من “Gemini Pro” و “GPT-4V” بسبب جودة الاستجابات المختلطة للأسئلة المفتوحة التي تدمج بين الصور والنصوص.