كشفت شركة xAI الناشئة عن نموذج Grok-1.5 Vision للذكاء الاصطناعي التوليدي المتعدد الوسائط.
يمكن لهذا النموذج الجديد أن يفهم النص، بالإضافة إلى قدرته على معالجة المعلومات الموجودة في المستندات والرسوم البيانية والمخططات ولقطات الشاشة والصور الفوتوغرافية.
تخطط شركة مملوكة للملياردير إيلون ماسك لتقديم Grok-1.5 Vision أو Grok-1.5V قريبًا للمستخدمين الأوائل للمختبر وأولئك الذين يستخدمون Grok حاليًا.
أعلنت الشركة في تغريدة: “يمكن لـ Grok-1.5 Vision التنافس مع النماذج الحالية لوسائط الاتصال المتعددة في عدة مجالات، بدءاً من التفكير بتخصصات متعددة إلى فهم الوثائق والرسوم البيانية العلمية والرسوم البيانية ولقطات الشاشة والصور الفوتوغرافية”.
تم الكشف عن نموذج Grok-1.5 Vision المتعدد الوسائط بعد عدة أسابيع من كشف xAI عن نموذج Grok-1.5 المحدث لروبوت الدردشة بالذكاء الاصطناعي.
تسلط الشركة الضوء على عدة أمثلة لتوضيح إمكانات Grok-1.5 Vision، من تحويل رسم تخطيطي إلى تعليمات برمجية باستخدام لغة Python، إلى إنشاء قصة بسيطة من رسم طفل، وتحويل جدول إلى ملف CSV.
الشركة فخورة بتفوق منتجها Grok-1.5 Vision على منافسيه في تقييم RealWorldQA، وهو معيار جديد تم إنشاؤه لتقييم الفهم المكاني في العالم الحقيقي.
شرحت xAI معيار RealWorldQA عن طريق استخدام أكثر من 700 صورة مع سؤال وجواب لكل عنصر.
تنوعت الصور المأخوذة من مصادر غير معروفة من الصور التي تم التقاطها من المركبات إلى عينات أخرى من الحياة الواقعية. وتم إصدار معيار RealWorldQA الخاص بـ xAI للاستخدام العام بموجب ترخيص Creative Commons.
تواصل الشركة الناشئة للذكاء الاصطناعي تحقيق تقدم مستمر، حيث تسعى لمواكبة OpenAI واللاعبين الرئيسيين في السوق منذ إطلاق روبوت الدردشة الخاص بها في شهر نوفمبر 2023.
يُطلق Grok-1.5 Vision في غضون أقل من شهر من إطلاق مشروع Grok المفتوح المصدر، على الرغم من وجود بعض الجدل حول جهودها.
في وقت سابق من هذا الشهر، تم الكشف من قبل الباحثين أن روبوت الدردشة Grok قادر على توجيه المستخدمين حول النشاط الإجرامي.
تواصل شركة XAI تقدمها في تطوير الذكاء الاصطناعي الذي يستطيع فهم العالم وتقديم فوائد عامة.