أعلنت شركة OpenAI عن طرح نموذج GPT-4o الجديد كليًا للذكاء الاصطناعي، وتقول الشركة إنه يمثل خطوة أقرب إلى التفاعل الطبيعي بين الإنسان والحاسوب.
النموذج الجديد يستقبل أي مجموعة من النصوص والصوت والصور كمدخلات ويمكنه إنتاج مخرجات بتنسيقات مختلفة.
بالإضافة إلى ذلك، يمتلك القدرة على فهم المشاعر وتحليل تعبيرات وجهك، ويمكنك قطع كلامه في منتصف الجملة، وترجمة الكلام المنطوق في الوقت الحقيقي، ويستجيب بسرعة شبه بشرية خلال المحادثات.
قالت ميرا موراتي، مديرة التكنولوجيا في OpenAI، خلال عرض تقديمي: “السمة المميزة في GPT-4o هي أنه يوفر مستوى ذكاء GPT-4 للجميع، بما في ذلك مستخدمينا المجانيين. هذه المرة الأولى التي نخطو فيها خطوة كبيرة إلى الأمام فيما يتعلق بسهولة الاستخدام”.
خلال العرض التقديمي، قامت شركة OpenAI بعرض قدرة GPT-4o على ترجمة مباشرة بين اللغتين الإنجليزية والإيطالية، مما ساعد أحد الباحثين في حل معادلة خطية في الوقت الفعلي، وقدمت إرشادات بشأن التنفس العميق لمدير تنفيذي آخر في الشركة عن طريق الاستماع إلى أنفاسه.
تجمع مهندسو شركة OpenAI ومديرة التكنولوجيا عبر الهاتف لعرض الإمكانيات الجديدة. حثوا المساعد على زيادة التعبير أثناء كتابة قصة قبل النوم، ثم طلبوا فجأة منه تحويل صوته إلى صوت آلي، وبعد ذلك طلبوا منه إنهاء القصة بصوت غنائي.
في وقت لاحق، طلبوا من المساعد أن ينظر إلى التسجيل على كاميرا الهاتف ويستجيب لما يظهر على الشاشة. وكان المساعد قادرًا أيضًا على التحدث والرد بدون انقطاع أثناء مهامه كمترجم.
تعد هذه الميزات تطوراً هاماً للوضع الصوتي الحالي في ChatGPT، حيث يمكن للمستخدم التفاعل مع النظام عبر الدردشة، وعلى الرغم من أن التفاعل محدود، إلا أنه لا يمكن قطع الإصدار الحالي أو الرد على الكاميرا.
تشير الحرف o في GPT-4o إلى omni، ليوضح قدرات النموذج المتعدد الوسائط.
قالت OpenAI إنها قامت بتدريب GPT-4o عبر النص والرؤية والصوت، مما يعني أن الشبكة العصبونية تتعامل مع جميع أنواع الإشارات الواردة والصادرة.
يختلف هذا عن النماذج السابقة للشركة، GPT-3.5 و GPT-4، حيث سمحت للمستخدمين بطرح الأسئلة عن طريق التحدث، ثم تحويل الكلام إلى نص، مما أدى إلى تجريد اللهجة والعواطف وجعل التفاعلات بطيئة.