أعلنت شركة جوجل عن نموذج الذكاء الاصطناعي التوليدي Veo الذي يستطيع إنشاء مقاطع فيديو عالية الجودة استنادًا إلى طلبات المستخدمين النصية، خلال فعاليات مؤتمر المطورين Google I/O 2024.
تدعي جوجل أن نموذج Veo لديه القدرة على فهم اللغة الطبيعية والدلالات البصرية بشكل متقدم، لإنشاء أي فيديو يتخيله المستخدمون.
يمكن إنشاء مقاطع فيديو عبر منصة Veo بدقة تصل إلى 1080 بكسل وتزيد عن دقيقة واحدة، وهو قادر أيضًا على فهم تقنيات السينما والبصريات مثل مفهوم الفاصل الزمني، وفقًا لما ذكرته شركة جوجل.
تعاونت الشركة جوجل مع صانع الأفلام دونالد جلوفر واستوديوهات Gilga لعرض قدرات نموذج Veo في محاكاة فيزياء العالم الحقيقي، وقد ظهر ذلك في فيديو ترويجي نشرته الشركة على يوتيوب.
سيتم إتاحة نموذج Veo اليوم كجزء من أداة VideoFX من قوقل لبعض مبدعي المحتوى، وسيتم أيضًا إضافتها إلى يوتيوب Shorts وأنواع أخرى من منتجات الشركة.
وأعلنت جوجل أيضًا عن نموذج Imagen 3، الذي يعتبر نموذجًا متقدمًا لتحويل النصوص إلى صور، وتدعي الشركة أنه النموذج ذو أعلى جودة لهذا الغرض، حيث يقدم مستوى مذهل من التفاصيل وصور واقعية مليئة بالحياة، إلى جانب تقليل عدد الأخطاء.
وأشارت جوجل إلى أن نموذج Imagen 3 يقوم الآن بمعالجة النصوص بشكل أفضل وأصبح أكثر ذكاءً في فهم التفاصيل في المطالبات الطويلة.
من ناحية أخرى، يتطلع المجتمع التقني إلى استكشاف النماذج الحديثة من غوغل ومقارنتها بأداء نماذج شركة OpenAI المنافسة التي تضم نموذج سورا لتحويل النصوص إلى فيديو ونموذج DALL-E 3 لتحويل النصوص إلى صور.