جدول المحتويات
أطلقت شركة Xiaomi مؤخرًا نموذج MiMo-V2.5-TTS، الذي يمثل خطوة متقدمة في مجال معالجة الصوت. يركز هذا النموذج على التحكم الدقيق في نبرة الصوت، والعاطفة، وأسلوب الحديث. وقد أعلنت الشركة أن النموذج قادر على التعامل مع محادثات طبيعية وحتى الغناء، مع دعم لعدة لهجات صينية.
تأتي هذه الإضافة الجديدة مع نظام متكامل يشمل كيفية تحدث الآلات وكيفية استماعها. حيث أعلنت Xiaomi عن سلسلة MiMo-V2.5-TTS إلى جانب MiMo-V2.5-ASR، كجزء من نموذج صوتي متكامل يتماشى مع ما تسميه “عصر الوكلاء”.
نماذج الإخراج
تتضمن سلسلة MiMo-V2.5-TTS ثلاثة نماذج مختلفة، متاحة عبر منصة MiMo Open الخاصة بشركة Xiaomi لفترة محدودة مجانًا. تشترك هذه النماذج في إطار عمل مشترك للتحكم في الأسلوب، وعلامات الصوت، وفهم النص، لكنها تستهدف حالات استخدام مختلفة.
يأتي نموذج MiMo-V2.5-TTS الأساسي مع مجموعة من الأصوات الجاهزة، مما يتيح تعديلات دقيقة على سرعة الكلام، والنبرة، والعاطفة. من ناحية أخرى، يتيح نموذج MiMo-V2.5-TTS-VoiceDesign للمستخدمين إنشاء أصوات جديدة تمامًا باستخدام جملة إدخال قصيرة.
أما الخيار الثالث، MiMo-V2.5-TTS-VoiceClone، فيركز على إعادة إنتاج صوت معين باستخدام عدد قليل من العينات، مع الحفاظ على التناسق عبر أنماط وتعليمات مختلفة.
تعتبر طريقة تفسير النموذج للتعليمات جزءًا كبيرًا من عرض Xiaomi. بدلاً من الاعتماد على معلمات محددة، يمكن للمستخدمين وصف كيفية صوت الصوت بلغة بسيطة، كما لو كانوا يوجهون ممثل صوت. يدعم النظام أيضًا إدخال نصوص معقدة، مثل شخصيات الألعاب أو الدراما الصوتية، حيث يمكن تعديل سمات الشخصيات والمشاهد والحوار بشكل مستقل دون كسر التناسق.
تقدم النماذج أيضًا علامات صوتية مدمجة، مما يسمح للمستخدمين بالتحكم في العاطفة أو طريقة الإلقاء في نقاط محددة داخل الجملة. يمكن خلط هذه العلامات داخل نفس النص، وتعمل عبر كل من الصينية والإنجليزية.
نموذج الإدخال
على جانب الإدخال، تطلق Xiaomi نموذج MiMo-V2.5-ASR كنموذج مفتوح المصدر. تم تصميم نظام التعرف على الكلام هنا للتعامل مع السيناريوهات الحياتية الأقل توقعًا، بما في ذلك المحادثات الثنائية اللغة، واللهجات الإقليمية، والبيئات المليئة بالضوضاء.
يدعم نموذج ASR عدة لهجات صينية مثل وو، والكانتونية، والميننان، والسيتشوان، ويؤدي بشكل جيد في السيناريوهات الإنجليزية المعقدة. يمكنه التبديل بين الصينية والإنجليزية دون الحاجة إلى علامات لغة مسبقة، ويستطيع التعرف على كلمات الأغاني حتى عند مزج الموسيقى والأصوات.
يستهدف النموذج أيضًا الحالات التي تشمل عدة متحدثين، مثل الاجتماعات، ويمكنه نسخ المحادثات المتداخلة مع مستوى من الفصل. تدعي Xiaomi أنه يمكنه الحفاظ على الدقة حتى في البيئات ذات الضوضاء العالية أو عند التعامل مع تسجيلات الصوت البعيدة.
تتعامل النظام أيضًا مع علامات الترقيم والبنية بشكل مبتكر. بدلاً من إخراج نص خام يحتاج إلى تنظيف، يتضمن MiMo-V2.5-ASR علامات ترقيم أصلية تعتمد على كل من الصوتيات والسياق. ونتيجة لذلك، فإن النصوص الناتجة قابلة للاستخدام دون الحاجة إلى الكثير من المعالجة اللاحقة.
فيما يتعلق بالأداء، تدعي Xiaomi أن النموذج يحقق نتائج متقدمة أو قريبة من النتائج المتقدمة عبر عدة معايير، بما في ذلك التعرف الثنائي اللغة، والتعامل مع اللهجات، وسيناريوهات تبديل الأكواد.
النماذج الصوتية متاحة عبر منصة Xiaomi، ويمكن أيضًا اختبارها في MiMo Studio، بينما يتوفر نموذج ASR مع أوزان وكود مفتوح المصدر للاستخدام المباشر أو التخصيص الإضافي.
رأي بوابة الذكاء الاصطناعي
تقدم Xiaomi من خلال MiMo-V2.5-TTS وMiMo-V2.5-ASR نموذجًا متكاملًا يفتح آفاقًا جديدة في مجال معالجة الصوت. تبرز هذه النماذج القدرة على التكيف مع مختلف اللهجات والسيناريوهات، مما يجعلها أداة قوية في عالم الذكاء الاصطناعي. كيف ترى تأثير هذه التكنولوجيا على مستقبل التواصل البشري؟
المصدر: الرابط الأصلي