جدول المحتويات
أعلنت شركة Meta اليوم عن إطلاق نموذج الذكاء الاصطناعي المفتوح الأحدث والأكبر لها، Llama 3.1 405B، الذي يحتوي على 405 مليار معلمة. تمثل المعلمات تقريبياً مهارات النموذج في حل المشكلات؛ والنماذج ذات المعلمات الأكثر عادةً ما تقدم أداءً أفضل من تلك ذات المعلمات الأقل.بالرغم من أن Llama 3.1 405B ليس النموذج المفتوح الأكبر في العالم، إلا أنه الأكبر في السنوات الأخيرة.
تم تدريبه باستخدام 16,000 وحدة معالجة رسومات من نوع Nvidia H100، ويستفيد من تقنيات تدريب وتطوير حديثة تجعله منافساً للنماذج الاحتكارية الرائدة مثل GPT-4o من OpenAI وClaude 3.5 Sonnet من Anthropic (مع بعض التحفظات).
كما هو الحال مع النماذج السابقة من Meta، يتوفر Llama 3.1 405B للتنزيل أو للاستخدام عبر منصات السحابة مثل AWS وAzure وGoogle Cloud. كما يتم استخدامه في تطبيقات مثل WhatsApp وMeta.ai، حيث يغذي تجربة الدردشة للمستخدمين في الولايات المتحدة.
تحسينات كبيرة
مثل غيره من نماذج الذكاء الاصطناعي التوليدية المفتوحة والمغلقة، يستطيع Llama 3.1 405B أداء مجموعة متنوعة من المهام، من البرمجة والإجابة على الأسئلة الرياضية الأساسية إلى تلخيص المستندات بثماني لغات (الإنجليزية، الألمانية، الفرنسية، الإيطالية، البرتغالية، الهندية، الإسبانية، والتايلاندية). لكن النموذج يعتمد على النصوص فقط، مما يعني أنه لا يستطيع مثلاً الإجابة على أسئلة تتعلق بالصور، لكنه يستطيع تحليل الملفات النصية مثل ملفات PDF وجداول البيانات.
المبادرات المستقبلية
أعلنت Meta في ورقة بحثية اليوم أنها تعمل حالياً على تطوير نماذج Llama قادرة على التعرف على الصور والفيديوهات وفهمها (وتوليدها) وكذلك على التعرف على الكلام. ومع ذلك، فإن هذه النماذج ليست جاهزة بعد للإصدار العام.
تدريب مكثف
استخدمت Meta مجموعة بيانات مكونة من 15 تريليون رمز لتدريب Llama 3.1 405B، والتي ترجع إلى عام 2024. على الرغم من أن هذه المجموعة ليست جديدة بالكامل، فقد زعمت الشركة أنها حسنت من أساليب تصفية البيانات وضمان جودتها أثناء تطوير هذا النموذج.
تعزيز البيانات الاصطناعية
استخدمت Meta أيضاً بيانات اصطناعية (تم توليدها بواسطة نماذج ذكاء اصطناعي أخرى) لتدقيق Llama 3.1 405B. يجري معظم كبار مزودي الذكاء الاصطناعي، بما في ذلك OpenAI وAnthropic، تجارب على تطبيقات البيانات الاصطناعية لإطلاق نماذجهم؛ ولكن بعض الخبراء يرون أن البيانات الاصطناعية يجب أن تكون الخيار الأخير نظراً لاحتمالية تفاقم الانحياز في النموذج.
الكشف عن البيانات
أصرت Meta على أنها اتبعت توازناً دقيقاً في بيانات تدريب Llama 3.1 405B، لكنها توقفت عن الكشف عن مصادر البيانات بالضبط. تشكل البيانات التدريبية جانباً تنافسياً مهماً للكثير من مقدمين الذكاء الاصنطاعي ولذلك يحتفظون بمعلوماتها بسرية.
النموذج الأكبر في السياق
يتمتع نموذج Llama 3.1 405B بذاكرة سياقية أكبر من النماذج السابقة: 128,000 رمز، أي ما يعادل تقريباً طول كتاب مكون من 50 صفحة. توفر النماذج ذات السياقات الأكبر القدرة على تلخيص نصوص أطول وأقل عرضة لفقدان مواضيع النقاش الأخيرة عند استخدامه في الدردشة.
الإيكو سيستم
تسعى Meta لاستغلال Llama 3.1 405B في توليد بيانات اصطناعية لتدريب نماذج بديلة وتشجيع استخدامه بتغييرات في التراخيص لتطوير نماذج توليدية للطرف الثالث. هذا التحرك جزء من استراتيجية Meta لتعزيز وجودها في عالم الذكاء الاصطناعي، بدفع أدواتها بشكل مجاني لتعزيز مجتمع المطورين والتعلم من مساهماتهم في تطوير نماذجها المستقبلية.
جهود التنمية المستدامة
تواصل Meta تحدي الطاقة المرتبطة بتدريب نماذج الذكاء الاصطناعي الضخمة، ولكنها تأمل في تجنب الحاجة إلى أبقاء محطات الطاقة القديمة لتدريب نماذجها المستقبلة.