حققت شركة مايكروسوفت تقدماً كبيراً في مجال إنتاج المحتوى القائم على الذكاء الاصطناعي من خلال إطلاق نموذج جديد للذكاء الاصطناعي قادر على إنشاء مقاطع فيديو متقدمة لأشخاص حقيقيين يتحدثون.
يمكن لطراز VASA-1 المدعوم بالذكاء الاصطناعي تحويل الصورة إلى فيديو واحد مع إضافة مقطع صوتي للنص.
تقوم الشركة بادعاء أن مقاطع الفيديو التي يتم إنشاؤها تحتوي على حركات الشفاه التي تتزامن مع الصوت بالإضافة إلى تعابير الوجه وحركة الرأس لتجعلها تبدو طبيعية.
مايكروسوفت ليست تعتزم إطلاق أي منتج أو واجهة برمجة تطبيقات تستخدم نموذج VASA-1، بسبب خطر التزييف العميق الناجم عن هذه التقنية.
أعادت شركة مايكروسوفت تصميم طريقة عمل نموذج الذكاء الاصطناعي وأبرزت قدراته. تزعم الشركة أن VASA-1 يمكنه إنتاج مقاطع فيديو بدقة 512×512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية.
يتميز الذكاء الاصطناعي في توليد مقاطع الفيديو عبر الإنترنت بزمن تأخر شبه غير ملحوظ. ويوفر VASA-1 ما يصل إلى دقيقة من مقاطع الفيديو ذات جودة عالية عبر استخدام صورة واحدة ثابتة.
وأبرزت الشركة قدرتها على إنتاج حركات الشفاه المتناسقة مع الملف الصوتي وتعابير الوجه التي تتناسب معه.
يقدم نموذج توليد الفيديو بتقنية الذكاء الاصطناعي ، تحكم دقيق للمستخدم في جوانب متنوعة من الفيديو، مثل اتجاه النظر الرئيسي، ومسافة الرأس وغيرها.
هذه العوامل تساعد في ضبط وضع رأس الثلاثي الأبعاد وديناميكيات الوجه، مما يعزز قدرة تعديل الإخراج وفقًا لاحتياجات المستخدم.
وبالإضافة إلى ذلك، قادر النموذج الذكاء الاصطناعي أيضًا على إنتاج مقاطع مeverة فيديو باستخدام الصور الفنية والصوت الغنائي والكلام بغير اللغة الإنجليزية.
يشير الباحثون في شركة مايكروسوفت إلى أن القدرة على هذه المهام لم تكن موجودة في البيانات الأولية، مما يدل على قدرة النموذج على التعلم الذاتي.
أكدت الشركة أنها لا تخطط لإطلاق نموذج الذكاء الاصطناعي للجمهور، بل تسعى إلى إنشاء شخصيات تفاعلية افتراضية باستخدامه.
قالت شركة مايكروسوفت: “بالنظر إلى احتمالية سوء التصرف، يجب أن ندرك الآثار الإيجابية الكبيرة لتقنيتنا، مثل دعم المساواة في التعليم وتحسين إمكانية الوصول للأفراد الذين يواجهون صعوبات الاتصال وتقديم الرعاية والدعم العلاجي للمحتاجين”.
وقالت الشركة: “نحن ملتزمون بتطوير الذكاء الاصطناعي المسؤول لتعزيز رفاهية الإنسان”.