شاومي تطلق MiMo-V2.5-TTS وASR كحل متكامل للذكاء الصوتي

كتبه رافي برازي 24 أبريل، 2026

كتبه رافي برازي 24 أبريل، 2026 0 تعليقات 793 مشاهدات

جدول المحتويات

أطلقت شركة Xiaomi مؤخرًا نموذج MiMo-V2.5-TTS، الذي يمثل خطوة متقدمة في مجال معالجة الصوت. يركز هذا النموذج على التحكم الدقيق في نبرة الصوت، والعاطفة، وأسلوب الحديث. وقد أعلنت الشركة أن النموذج قادر على التعامل مع محادثات طبيعية وحتى الغناء، مع دعم لعدة لهجات صينية.

تأتي هذه الإضافة الجديدة مع نظام متكامل يشمل كيفية تحدث الآلات وكيفية استماعها. حيث أعلنت Xiaomi عن سلسلة MiMo-V2.5-TTS إلى جانب MiMo-V2.5-ASR، كجزء من نموذج صوتي متكامل يتماشى مع ما تسميه “عصر الوكلاء”.

نماذج الإخراج

تتضمن سلسلة MiMo-V2.5-TTS ثلاثة نماذج مختلفة، متاحة عبر منصة MiMo Open الخاصة بشركة Xiaomi لفترة محدودة مجانًا. تشترك هذه النماذج في إطار عمل مشترك للتحكم في الأسلوب، وعلامات الصوت، وفهم النص، لكنها تستهدف حالات استخدام مختلفة.

يأتي نموذج MiMo-V2.5-TTS الأساسي مع مجموعة من الأصوات الجاهزة، مما يتيح تعديلات دقيقة على سرعة الكلام، والنبرة، والعاطفة. من ناحية أخرى، يتيح نموذج MiMo-V2.5-TTS-VoiceDesign للمستخدمين إنشاء أصوات جديدة تمامًا باستخدام جملة إدخال قصيرة.

أما الخيار الثالث، MiMo-V2.5-TTS-VoiceClone، فيركز على إعادة إنتاج صوت معين باستخدام عدد قليل من العينات، مع الحفاظ على التناسق عبر أنماط وتعليمات مختلفة.

تعتبر طريقة تفسير النموذج للتعليمات جزءًا كبيرًا من عرض Xiaomi. بدلاً من الاعتماد على معلمات محددة، يمكن للمستخدمين وصف كيفية صوت الصوت بلغة بسيطة، كما لو كانوا يوجهون ممثل صوت. يدعم النظام أيضًا إدخال نصوص معقدة، مثل شخصيات الألعاب أو الدراما الصوتية، حيث يمكن تعديل سمات الشخصيات والمشاهد والحوار بشكل مستقل دون كسر التناسق.

تقدم النماذج أيضًا علامات صوتية مدمجة، مما يسمح للمستخدمين بالتحكم في العاطفة أو طريقة الإلقاء في نقاط محددة داخل الجملة. يمكن خلط هذه العلامات داخل نفس النص، وتعمل عبر كل من الصينية والإنجليزية.

نموذج الإدخال

على جانب الإدخال، تطلق Xiaomi نموذج MiMo-V2.5-ASR كنموذج مفتوح المصدر. تم تصميم نظام التعرف على الكلام هنا للتعامل مع السيناريوهات الحياتية الأقل توقعًا، بما في ذلك المحادثات الثنائية اللغة، واللهجات الإقليمية، والبيئات المليئة بالضوضاء.

يدعم نموذج ASR عدة لهجات صينية مثل وو، والكانتونية، والميننان، والسيتشوان، ويؤدي بشكل جيد في السيناريوهات الإنجليزية المعقدة. يمكنه التبديل بين الصينية والإنجليزية دون الحاجة إلى علامات لغة مسبقة، ويستطيع التعرف على كلمات الأغاني حتى عند مزج الموسيقى والأصوات.

يستهدف النموذج أيضًا الحالات التي تشمل عدة متحدثين، مثل الاجتماعات، ويمكنه نسخ المحادثات المتداخلة مع مستوى من الفصل. تدعي Xiaomi أنه يمكنه الحفاظ على الدقة حتى في البيئات ذات الضوضاء العالية أو عند التعامل مع تسجيلات الصوت البعيدة.

تتعامل النظام أيضًا مع علامات الترقيم والبنية بشكل مبتكر. بدلاً من إخراج نص خام يحتاج إلى تنظيف، يتضمن MiMo-V2.5-ASR علامات ترقيم أصلية تعتمد على كل من الصوتيات والسياق. ونتيجة لذلك، فإن النصوص الناتجة قابلة للاستخدام دون الحاجة إلى الكثير من المعالجة اللاحقة.

فيما يتعلق بالأداء، تدعي Xiaomi أن النموذج يحقق نتائج متقدمة أو قريبة من النتائج المتقدمة عبر عدة معايير، بما في ذلك التعرف الثنائي اللغة، والتعامل مع اللهجات، وسيناريوهات تبديل الأكواد.

النماذج الصوتية متاحة عبر منصة Xiaomi، ويمكن أيضًا اختبارها في MiMo Studio، بينما يتوفر نموذج ASR مع أوزان وكود مفتوح المصدر للاستخدام المباشر أو التخصيص الإضافي.

(المصدر 1 | 2 | 3)

رأي بوابة الذكاء الاصطناعي

تقدم Xiaomi من خلال MiMo-V2.5-TTS وMiMo-V2.5-ASR نموذجًا متكاملًا يفتح آفاقًا جديدة في مجال معالجة الصوت. تبرز هذه النماذج القدرة على التكيف مع مختلف اللهجات والسيناريوهات، مما يجعلها أداة قوية في عالم الذكاء الاصطناعي. كيف ترى تأثير هذه التكنولوجيا على مستقبل التواصل البشري؟

المصدر: الرابط الأصلي

قد تعجبك أيضاً

ديب سيك تطلق هيكلية ذكاء اصطناعي جديدة لتدريب النماذج بكفاءة أعلى

1 يناير، 2026 511
شاومي تكشف عن ترقية معالج Pad 8 Pro قبل إطلاقه المرتقب

20 سبتمبر، 2025 478
شاومي تطلق الدفعة الثانية من بيتا HyperOS 3.1 لأجهزة جديدة

28 يناير، 2026 294
شحنات شاومي ترتفع في الربع الرابع 2025 رغم أزمة الذاكرة

15 يناير، 2026 383

MiMoV2.5TTS الصوتي تطلق شاومي كحل للذكاء متكامل وASR

شاومي تطلق MiMo-V2.5-TTS وASR كحل متكامل للذكاء الصوتي

نماذج الإخراج

نموذج الإدخال

شراكات

منصة Bawaba AI تعمل بأدوات مدعومة من شركة مايكروسوفت تحت برنامج دعم المشاريع الناشئة.

شاومي تطلق MiMo-V2.5-TTS وASR كحل متكامل للذكاء الصوتي

نماذج الإخراج

نموذج الإدخال

رأي بوابة الذكاء الاصطناعي

هونر تطلق إصدار 2026 من Notebook X14 Plus وX16 Plus بمعالج Intel Core Ultra 5 وبنية معدنية

هاتف iQOO الجديد بمعالج Dimensity 9500 وكاميرا 200MP وبطارية 8000mAh

قد تعجبك أيضاً

اترك تعليقًا إلغاء الرد

شراكات

منصة Bawaba AI تعمل بأدوات مدعومة من شركة مايكروسوفت تحت برنامج دعم المشاريع الناشئة.