طورت شركة ميتا مجموعة جديدة من النماذج الذكية التي تحمل اسم (التواصل المتسلسل)، بهدف تعزيز التواصل الطبيعي والحقيقي عبر اللغات المختلفة، وهذا يسهم في تحقيق فكرة الترجمة العالمية للكلام وتحويلها إلى حقيقة.
يقوم النموذج الرئيسي المعروف بإسم الانسيابي بدمج قدرات ثلاثة نماذج أخرى وهي: الانسيابي المعبر والانسيابي المباشر والانسيابي M4T v2، في نظام موحد واحد.
وطبقًا لورقة البحث، يُعد نظام “سيملس” النظام الأول المُتاح للجمهور الذي يتيح التواصل التعبيري بين اللغات في الوقت الحقيقي.
وفي شهر أغسطس الماضي، تم الكشف عن نموذج الترجمة المعتمد على الذكاء الاصطناعي الجديد SeamlessM4T من قبل شركة ميتا. يدعم هذا النموذج ترجمة النصوص بنحو 100 لغة والكلام بـ 36 لغة.
بواسطة معمارية v2 المحدثة، يوسع ميتا الآن استخدام هذه الأداة لجعل ترجمات المحادثات غير رسمية وتعبيرية، وهذا هو الهدف الرئيسي لتحقيق المحادثات الحقيقية عبر اللغات.
يهدف مترجم Seamless إلى دمج ثلاثة نماذج متقدمة للشبكات العصبونية لتوفير ترجمة فورية بين أكثر من 100 لغة محكية ومكتوبة، مع الحفاظ على الصوت والعاطفة ونغمة الصوت للمتحدث.
يولي SeamlessExpressive الاهتمام للحفاظ على النغمة الصوتية والتعبير العاطفي الدقيق في صوت المتحدث أثناء الترجمة بين اللغات.
وكما موضح في الوثيقة, يجب أن تحمل الترجمات الفروق التفصيلية في التعبير البشري. إذ أن الأدوات الترجمة المستخدمة حالياً عادةً ما تعتمد على أنظمة محددة لتحويل النص إلى كلام.
تشمل اللغات المستدعاة: اللغة الإنجليزية والإسبانية والألمانية والفرنسية والإيطالية والصينية.
يتيح SeamlessStreaming ترجمة فورية بزمن وصول قصير يقل قليلًا عن ثانيتين، مما يجعله النموذج الأول الذي يقدم سرعة الترجمة العالية هذه لأكثر من 100 لغة محكية ومكتوبة.
يبدأ نموذج SeamlessStreaming في ترجمة الكلام أثناء الكلام ، مما يسمح للآخرين بسماع الترجمة بشكل سريع.
يقدم النموذج الثالث، وهو نموذج SeamlessM4T v2 ، قاعدة للنموذجين الآخرين. فهو تطور لنموذج SeamlessM4T الأصلي الذي أصدرته الشركة في العام الماضي. توفر التصميمات المعمارية الجديدة تكاملًا أفضل بين إخراج النص والكلام.
وصرحت ميتا قائلة: “توفر لنا Seamless نظرة شاملة إلى التقنيات الأساسية المطلوبة لتحويل مفهوم المترجم العالمي للكلام من كونه مجرد خيال علمي إلى تكنولوجيا حقيقية في العالم الفعلي”.
يتيح توافر النماذج إمكانية تجربة تواصل جديدة تستند إلى الصوت، مثل المحادثات المتعددة اللغات في الوقت الحقيقي باستخدام النظارات الذكية، بالإضافة إلى ترجمة مقاطع الفيديو والبودكاست تلقائيًا.
وفقًا للباحثين في ميتا ، قد تسهم النماذج أيضًا في تجاوز الصعوبات اللغوية التي يواجهها المهاجرون والأشخاص الذين يعانون من صعوبات في التواصل.