أعلن مختصون من جوجل عن تطوير نظام جديد للذكاء الاصطناعي قادر على تغيير الصور الساكنة إلى فيديوهات ديناميكية. هذا النمط يُعرف باسم “فلوجر” VLOGGER.
حسب ما أفاد به مختصو جوجل، يستطيع النموذج المذكور إنشاء مقاطع فيديو طبيعية لأفراد يتكلمون ويتنقلون مع عرض لغة الجسد والإشارات الاستنادًا إلى صورة ثابتة وحيدة.
تعتمد هذه التقنية على استخدام أحدث نماذج التعلم الآلي لإنشاء العديد من الصور الواقعية ودمجها لصنع مقاطع فيديو.
تمهد هذه التكنولوجيا الطريق أمام مجموعة واسعة من الاستخدامات المحتملة، ومع ذلك فإنها تُثير قلقاً حول الاستخدام السيئ لها في عمليات التضليل أو تكوين فيديوهات بصورة تحاكي تقنيات التزييف المتقدمة.
وفقًا للدراسة التي أصدرها العاملون في مجال البحث بشركة جوجل، يمكن للإصدار الجديد من نماذج الذكاء الاصطناعي أن يعتمد على مدخلات تشتمل على صورة شخصية بالإضافة إلى تسجيل صوتي لتوليد مقطع فيديو يصور الشخص وهو ينطق بنفس الصوت، مصحوبًا بالتعابير الوجهية وحركات الرأس واليدين المناسبة.
على الرغم من أن مقاطع الفيديو التي قام باحثو جوجل بنشرها ليست مكتملة الكمال وتحتوي على بعض العيوب، وهي مختصرة وذات خلفيات غير متحركة، ولا تظهر فيها الشخصيات وهي تتنقل ضمن فضاء ثلاثي الأبعاد، إلا أنها تُعد قفزة هائلة في مجال إحياء الصور الثابتة.
استخدم الباحثون تقنية حديثة في مجال الذكاء الاصطناعي هي نماذج الانتشار لتحقيق نتائج متميزة في إنتاج الصور انطلاقًا من النصوص.
وقد قام هذا الفريق بتوسيع نطاق استخدام تلك النماذج لتشمل صنع مقاطع فيديو بعد تدريبها على كمية كبيرة من البيانات تضمنت أكثر من 800 ألف شخصية متنوعة و2200 ساعة من الفيديو.
نتيجة لذلك، استطاع نموذج VLOGGER أن يتعلم كيف يصنع مقاطع فيديو تظهر أشخاصًا من جنسيات، أعمار، ملابس وأوضاع متعددة في بيئات مختلفة بشكل غير متحيز.
يمكن توظيف نموذج VLOGGER في كثير من المجالات، منها الترجمة الصوتية الآلية لمقاطع الفيديو من خلال استبدال التسجيل الصوتي، وتكملة اللقطات الناقصة في الفيديوهات، وتصميم أفاتارات تفاعلية ذات مظهر واقعي للألعاب الإلكترونية والبيئات الافتراضية، بالإضافة إلى إنشاء أنظمة للمحادثة الآلية قادرة على التعامل بشكل أمثل مع المستخدمين. ومع ذلك، تبقى فرص إساءة استخدام هذا النموذج قائمة.