جدول المحتويات
في 12 فبراير 2026، أطلقت شركة Xiaomi نموذجها الأول من الروبوتات مفتوحة المصدر، والذي يحمل اسم “Xiaomi-Robotics-0”. يتميز هذا النموذج بوجود 4.7 مليار معلمة، ويجمع بين فهم اللغة البصرية والقدرات التنفيذية عالية الأداء في الوقت الحقيقي، مما يحقق سجلات جديدة في معايير الأداء.
العمارة: تعاون بين الدماغ والمخيخ
لتوازن الفهم العام مع التحكم الدقيق، يعتمد Xiaomi-Robotics-0 على بنية “Mixture-of-Transformers” (MoT).
- الدماغ البصري اللغوي (VLM): يعتمد على قاعدة متعددة الوسائط لفهم الأوامر البشرية الغامضة (مثل: “يرجى طي المنشفة”) والتقاط العلاقات المكانية من المدخلات البصرية عالية الدقة.
- المخيخ لتنفيذ الأفعال (Action Expert): يتضمن نموذج Diffusion Transformer (DiT) متعدد الطبقات، الذي يولد حركات سلسة وعالية التردد. بدلاً من إخراج إجراء واحد، يقوم بتوليد “Action Chunk” ويضمن الدقة باستخدام تقنية “flow-matching”.
استراتيجية التدريب: منع “التقليل من الفهم”
تميل العديد من نماذج VLA إلى فقدان قدراتها العامة أثناء تعلم الأفعال. تعالج Xiaomi هذه المشكلة من خلال طريقة تدريب هجينة تجمع بين البيانات متعددة الوسائط وبيانات الأفعال:
- تدريب VLM التآزري: آلية “Action Proposal” تجبر VLM على توقع توزيعات الأفعال أثناء فهم الصور، مما ينسجم مع الفضاء المميز لـ VLM.
- تدريب DiT المتخصص: يتم تجميد VLM، ويتم تدريب DiT لاستعادة تسلسلات الأفعال الدقيقة من الضوضاء، معتمدًا بالكامل على ميزات KV للتوليد الشرطي.
الحركات السلسة في الوقت الحقيقي
لحل مشكلة “التوقف في الأفعال” الناتجة عن تأخر الاستدلال في الروبوتات الحقيقية، قدم الفريق تقنيات مبتكرة:
- الاستدلال غير المتزامن: يفصل عملية التفكير للنموذج عن تنفيذ الروبوت، مما يسمح لهما بالعمل بشكل غير متزامن لتحقيق تشغيل أكثر سلاسة.
- بادئة الفعل النظيفة: تستخدم الفعل المتوقع سابقًا كمدخل لضمان استمرارية المسار وتقليل الاهتزاز.
- قناع الانتباه على شكل $Lambda$: قناع انتباه خاص يجبر النموذج على التركيز على التغذية البصرية الحالية بدلاً من القصور التاريخي، مما يجعل الروبوت سريع الاستجابة للتغيرات المفاجئة في البيئة.
الأداء والتوافر
- رائد في المعايير: حقق النموذج نتائج متفوقة بين 30 نموذجًا في معايير المحاكاة مثل LIBERO وCALVIN وSimplerEnv.
- التحديات في العالم الحقيقي: أظهر في اختبارات الروبوتات ذات الذراعين تنسيقًا متفوقًا بين اليد والعين في مهام طويلة الأمد مثل تفكيك الكتل وطي المناشف الناعمة.
- التوافق مع الأجهزة: يدعم الاستدلال في الوقت الحقيقي على بطاقات الرسوميات التجارية.
قدمت Xiaomi الصفحة الخاصة بالمشروع، الشيفرة المصدرية، وأوزان النموذج للجمهور.
رأي بوابة الذكاء الاصطناعي
يُظهر نموذج “Xiaomi-Robotics-0” تقدمًا ملحوظًا في مجال الروبوتات مفتوحة المصدر، حيث يجمع بين الفهم البصري واللغوي مع تنفيذ حركات دقيقة. هذا الابتكار قد يفتح آفاقًا جديدة في استخدام الروبوتات في الحياة اليومية. كيف ترى تأثير هذه التكنولوجيا على حياتك اليومية؟
المصدر: الرابط الأصلي