أعلنت شركة جوجل عن نموذج الذكاء الاصطناعي التوليدي Veo الذي يستطيع إنتاج مقاطع فيديو عالية الجودة استنادًا إلى الطلبات المكتوبة من قبل المستخدمين، وذلك خلال فعاليات مؤتمر المطورين Google I/O 2024.
يدعي جوجل أن نموذج Veo لديه قدرة متقدمة في فهم اللغة الطبيعية والدلالات البصرية، مما يسمح بإنشاء أي فيديو يمكن تخيله من قبل المستخدمين.
يمكن إنشاء مقاطع فيديو باستخدام نموذج Veo لمدة تتجاوز الدقيقة، بدقة تصل إلى 1080 بكسل. كما أن النموذج قادر على فهم التقنيات السينمائية والبصرية، مثل مفهوم الفاصل الزمني، حسب ما أشارت جوجل.
تعاونت جوجل مع المخرج دونالد جلوفر واستوديو Gilga السينمائي لعرض القدرات الرائعة لنموذج Veo في محاكاة فيزياء العالم الحقيقي، ويمكن رؤية ذلك في مقطع الفيديو الترويجي الذي نشرته الشركة عبر يوتيوب.
ستصبح منصة Veo متاحة اليوم كجزء من أداة VideoFX التابعة لجوجل لبعض مبدعي المحتوى، كما ستُدمج أيضًا في يوتيوب شورتس ومنتجات أخرى تابعة للشركة.
أعلنت جوجل أيضًا عن نموذج Imagen 3 المتقدم لتحويل النص إلى صورة، وادعت أنه النموذج ذو “أعلى جودة” في هذا المجال، حيث يقدم مستوى مدهش من التفاصيل وصور واقعية مفعمة بالحياة، ويحتوي على أقل عدد من الأخطاء.
قالت جوجل إن نموذج Imagen 3 أصبح يتفاعل بشكل أفضل مع النصوص، وأصبح أكثر ذكاءً في فهم التفاصيل في المطالبات الطويلة.
من جهة أخرى، يتطلع المجتمع التقني إلى استكشاف النماذج الجديدة التي تقدمها جوجل، ومقارنة أداءها بالنماذج المنافسة لشركة OpenAI مثل نموذج Sora الذي يحول النصوص إلى فيديو ونموذج DALL-E 3 الذي يحول النصوص إلى صور.