أعلنت شركة “مايكروسوفت” عن نموذج جديد للذكاء الاصطناعي يستطيع إنشاء مقاطع فيديو واقعية لشخصيات بشرية تتحدث، وهو يُدعى “فازا 1” (vasa 1).
تقوم الشركة بتأكيد أن مقاطع الفيديو التي تنشأ تحتوي على حركات الشفاه المتزامنة مع الصوت، بالإضافة إلى تعبيرات الوجه وحركة الرأس، لجعلها تبدو وكأنها طبيعية.
“مايكروسوفت” لا تعتزم إطلاق منتج أو واجهة برمجة تطبيقات تستفيد من نموذج “فازا 1” بسبب خطر توليد التزوير العميق من هذه التكنولوجيا.
قامت شركة “مايكروسوفت” بتعديل طريقة عمل نموذج الذكاء الاصطناعي، وأبرزت قدراته. وتقول الشركة إن النموذج قادر على إنتاج مقاطع فيديو بدقة 512×512 بكسل بسرعة تصل إلى 40 إطارًا في الثانية.
يدعم نموذج الذكاء الاصطناعي إنتاج الفيديو عبر الإنترنت بتأخير غير ملحوظ. يوفر “فازا 1” ما يصل إلى دقيقة واحدة من مقاطع الفيديو عالية الجودة باستخدام صورة واحدة ثابتة.
في هذه الشركة، تم التركيز على قدرتها على إنتاج حركات الشفاه الداعمة للملف الصوتي والتعبيرات الوجهية المتناسبة معه.
يقدم نموذج توليد الفيديو باستخدام تقنية الذكاء الاصطناعي تحكمًا دقيقًا للمستخدم في عدة جوانب مختلفة من الفيديو، مثل اتجاه النظر ومسافة الرأس وأشياء أخرى.
تساعد هذه العوامل في السيطرة على وضعية الرأس ذات الأبعاد الثلاثة وديناميكيات الوجه، مما يسهل ضبط الإخراج وفقًا لإرشادات المستخدم.
يمكن لنموذج الذكاء الاصطناعي إنشاء مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام بلغات أخرى بالإضافة إلى الإنجليزية.
أكدت شركة مايكروسوفت أنه بالرغم من الاعتراف بإمكانية سوء الاستخدام، يجب علينا أن ندرك الفوائد الكبيرة التي تأتي مع تقنيتنا، مثل تعزيز المساواة في التعليم وتحسين إمكانية الوصول للأفراد الذين يواجهون تحديات الاتصال وتقديم الرعاية للمحتاجين. نحن ملتزمون بتطوير الذكاء الاصطناعي بشكل مسؤول بغرض تعزيز رفاهية الإنسان.