تقود مايكروسوفت الموجة المقبلة في مجال إنتاج الفيديو بواسطة الذكاء الاصطناعي، حيث قامت الشركة بإطلاق نموذج جديد لتوليد الفيديو يدعى DragNUWA.
الهدف من هذا النموذج هو توفير سيطرة دقيقة على إنتاج الفيديو من خلال استخدام النص والصور والمسار كعوامل تحكم ثلاثة أساسية. يهدف ذلك إلى تسهيل إنتاج فيديو قابل للتحكم بشكل كبير من حيث المعنى والمكان والزمان.
تتنافس شركات الذكاء الاصطناعي للوصول إلى التطوير المثلى في إنتاج الفيديو بتقنيات الذكاء الاصطناعي. وقد أصدر عدد كبير من الشركات في هذا المجال نماذج قادرة على إنتاج مقاطع فيديو مختلفة، باستخدام المعلومات المستمدة من النصوص والصور.
يتيح نموذج DragNUWA للمستخدمين إمكانية التعامل مباشرة مع خلفيات الصور أو الكائنات الموجودة فيها، ويحول هذه الإجراءات بسهولة إلى حركات الكاميرا أو حركات الكائنات، مما ينتج عنه إنتاج فيديو متناسق.
وبجانب الأساليب المعتادة مثل المطالبة المستندة إلى النص والمطالبة المستندة إلى الصورة، يقدم النموذج التوليد المستند أسلوبًا جديدًا.
ويتيح ذلك للمستخدمين إمكانية معالجة الكائنات أو إطارات الفيديو بشكل كامل عبر مسارات محددة. ومن خلال ذلك، يتم توفير طريقة سهلة لإنتاج فيديو يمكن التحكم فيه بشكل كبير من النواحي المعنوية والمكانية والزمانية، مع ضمان إخراج عالي الجودة في نفس الوقت.
عرضت مايكروسوفت معايير سهلة التعلم للنموذج بشكل مفتوح المصدر، وقدمت عرضًا توضيحيًا للمشروع، وذلك ليتيح للمجتمع تجربته.
تركز إنتاج الفيديو بفضل الذكاء الاصطناعي على النصوص أو الصور أو المعلومات المدخلة المعتمدة على المسار، وواجهت كل طريقة صعوبات في توفير تحكم دقيق في النتائج المطلوبة.
لا يستطيع الجمع بين النص والصور لوحدهما نقل تفاصيل الحركة المعقدة الموجودة في الفيديو، ولا تعبّر الصور بشكل مناسب عن الأشياء المستقبلية، وقد تؤدي النصوص والصور إلى غموض عندما يتعلق الأمر بالتعبير عن المفاهيم المجردة.
اقترح فريق الذكاء الاصطناعي في مايكروسوفت في شهر أغسطس 2023 نموذجًا يسمى “DragNUWA” للتغلب على هذه المشكلة، والذي يستند إلى نموذج مفتوح المدى يجمع بين العوامل الثلاثة.
هذا يمكن للمستخدم تحديد النص والصورة والمسار المطلوب بدقة في الإدخال للسيطرة على مختلف الجوانب، مثل حركات الكاميرا، بما في ذلك تأثيرات التكبير والتصغير، وحركة الكائن في الفيديو الناتج.
يقدم المسار معلومات مفصلة حول الحركة، وتزود النصوص بتفاصيل حول الأحداث المستقبلية، وتعمل الصور على تمييز الكائنات بين بعضها.
هامشاً لإختباراتها، زعمت شركة مايكروسوفت أن هذا النموذج قادر على تنفيذ حركات توجه طابع دقيق للكاميرا والأجسام، بدءاً من مسارات سحب متعددة.