جدول المحتويات
يتطور مجال الذكاء الاصطناعي باستمرار، ومن أبرز التطورات الحديثة هو إطلاق نموذج اللغة الكبير العربي المتقدم (علّام) من تطوير الهيئة السعودية للبيانات والذكاء الاصطناعي (سدايا). تم إطلاق علّام رسميًا في 21 مايو 2024 خلال مؤتمر IBM Think في بوسطن، ويعد دمجه في منصة watsonx التابعة لشركة IBM قفزة نوعية في تكنولوجيا الذكاء الاصطناعي المخصصة للغة العربية.
الميزات الرئيسية لنموذج علّام
التركيز على اللغة:
تم تصميم علّام خصيصًا لتلبية احتياجات اللغة العربية، مما يجعله أول نظام ذكاء اصطناعي سعودي قادر على معالجة الاستفسارات العربية بفعالية. يهدف هذا الابتكار إلى إثراء المحتوى العربي في مجالات متعددة وتعزيز التنوع الثقافي من خلال تقنيات الذكاء الاصطناعي المتقدمة.
القدرات التقنية:
يتميز النموذج بمجموعة بيانات تدريبية ضخمة تحتوي على أكثر من 500 مليار وحدة لغوية عربية، مما يضمن دقته العالية وأدائه الممتاز في توليد النصوص. هذه المجموعة الواسعة من البيانات أساسية لفعاليته في تطبيقات الذكاء الاصطناعي التوليدي، مما يسمح له بتقديم ردود شاملة في كل من النصوص والصوت.
المصدر المفتوح والحكم:
يعد علّام مفتوح المصدر، مما يتيح للعملاء المرونة في تدريب وتخصيص ونشر النموذج. يلتزم بإرشادات الذكاء الاصطناعي الأخلاقية المقدمة من IBM، مما يضمن نشر الذكاء الاصطناعي بشكل مسؤول في القطاعات العامة والخاصة. هذا الإطار الحوكمي ضروري للحفاظ على المعايير الأخلاقية والامتثال.
الأهمية الاستراتيجية:
تعاون سدايا مع IBM يعزز مكانة المملكة العربية السعودية كقائد في تكنولوجيا الذكاء الاصطناعي. يتماشى علّام مع الأهداف الأوسع لرؤية السعودية 2030، التي تهدف إلى تعزيز الابتكار التكنولوجي ودفع التحول الرقمي في المنطقة. يمثل دمجه في منصة watsonx علامة فارقة في مجال الذكاء الاصطناعي التوليدي العربي، مما يتيح للشركات والجهات الحكومية الاستفادة من القدرات المتقدمة للذكاء الاصطناعي بثقة.
رؤى ومقاييس تفصيلية
نظرة عامة وتكامل:
تم إطلاق علّام رسميًا في 21 مايو 2024 خلال مؤتمر IBM Think في بوسطن. يعزز دمج النموذج في منصة watsonx التابعة لشركة IBM قدراته لخدمة الشركات والحكومات، مع ضمان الامتثال لإرشادات الذكاء الاصطناعي الأخلاقية من خلال أدوات الحوكمة الرائدة في الصناعة.
المواصفات التقنية:
- بيانات التدريب: تم تدريب علّام على أكثر من 500 مليار وحدة لغوية عربية، وهو أمر أساسي لتوليد ردود دقيقة وملائمة سياقياً.
- بنية النموذج: يتميز بنية تشفير تلقائي تعتمد على التشفير الذاتي، مما يجعله مُحسَّنًا لمعالجة النصوص العربية والإنجليزية، مما يسهل اكتساب اللغة الثانية ونقل المعرفة.
- أحجام النماذج: يتضمن علّام عدة نماذج بأحجام مختلفة، وهي 7B و13B و70B من المعاملات، تم تهيئتها باستخدام أوزان Llama-2. يتيح هذا التنوع مرونة في النشر حسب احتياجات المستخدمين المحددة.
مقاييس الأداء:
- المعايير: حقق علّام أداءً متفوقًا في العديد من المعايير العربية، بما في ذلك MMLU Arabic وACVA وArabic Exams، مما يثبت فعاليته في فهم وتوليد النصوص العربية.
- المكانة العالمية: أبرز الدكتور عصام بن عبدالله الوقيت، مدير سدايا، أن علّام قد تم الاعتراف به كواحد من أفضل نماذج الذكاء الاصطناعي التوليدي للغة العربية على مستوى العالم، مما يعزز ميزته التنافسية في السوق الدولية.
الأهمية الاستراتيجية
الأهداف الثقافية واللغوية:
يهدف ALLaM إلى إثراء المحتوى العربي في مجالات متعددة، وتعزيز التنوع الثقافي من خلال تقنيات الذكاء الاصطناعي. يتماشى هذا مع رؤية السعودية 2030، التي تسعى إلى وضع المملكة كقائد في التقنيات المتقدمة.
التطورات المستقبلية:
تعتمد سدايا على توسيع مجموعة بيانات النموذج وتحسين دقته، مؤكدة التزامها بجعل ALLaM النموذج الرائد للذكاء الاصطناعي التوليدي للغة العربية على مستوى العالم.
الوصول إلى واستخدام علّام
المنصة:
يتم استضافة ALLaM على منصة watsonx التابعة لـ IBM، التي توفر مجموعة من الأدوات لإدارة الذكاء الاصطناعي والبيانات. يمكن للمستخدمين الوصول إلى ALLaM عبر watsonx.ai studio المتاح حاليًا في إصدار تجريبي. يتيح هذا للمستخدمين تجربة إمكانياته وتقديم الملاحظات، مما يساهم في تحسين النموذج بشكل أكبر.
تنسيقات الإدخال:
يمكن للمستخدمين تقديم الاستفسارات بتنسيقات النص والصوت، حيث يرد علّام بالتنسيق المختار لضمان تجربة مستخدم مرنة. تم تصميم النموذج للإجابة على الأسئلة عبر مختلف مجالات المعرفة، مما يجعله مناسبًا للتطبيقات في المجالات التقنية والثقافية والأدبية والعلمية والإنسانية الأخرى.
التخصيص والحكم:
يمكن للعملاء تدريب وتخصيص ونشر ALLaM وفقًا لاحتياجاتهم المحددة، وذلك من خلال الأدوات المتاحة في منصة watsonx. تتضمن watsonx من IBM أدوات حوكمة رائدة في الصناعة تضمن النشر المسؤول والامتثال لإرشادات الذكاء الاصطناعي الأخلاقية، وهو أمر حيوي للتطبيقات في القطاعين العام والخاص.
الفوائد والتطورات المستقبلية
تعزيز قدرات الذكاء الاصطناعي العربي:
يوفر ALLaM قدرات متطورة لتوليد اللغة العربية، مما يسمح للشركات والجهات الحكومية بالابتكار بثقة.
التمكين الثقافي:
يهدف النموذج إلى إثراء المحتوى العربي وتعزيز التنوع الثقافي، بما يتماشى مع أهداف رؤية السعودية 2030 لتعزيز التكنولوجيا والحفاظ على اللغة العربية.
التطورات المستقبلية:
تخطط سدايا لمواصلة توسيع مجموعة البيانات المستخدمة لتدريب ALLaM، مما يعزز دقة النموذج وفعاليته، مؤكدة مكانته كأحد النماذج الرائدة للذكاء الاصطناعي التوليدي للغة العربية على مستوى العالم. من خلال الاستفادة من ALLaM، يمكن للمنظمات فتح فرص جديدة للابتكار في الخدمات والمشاركة الثقافية داخل المجتمع الناطق بالعربية وخارجه.
التحليل المقارن: نموذج علّام مقابل نماذج Jais AI
ALLaM وJais هما نموذجان بارزان للغة العربية، تم تطوير كل منهما لتعزيز قدرات الذكاء الاصطناعي في اللغة العربية. إليك نظرة مقارنة بين كلا النموذجين:
نموذج ALLaM
المطور: الهيئة السعودية للبيانات والذكاء الاصطناعي (سدايا)
تاريخ الإطلاق: 21 مايو 2024
البنية: نماذج متعددة بأحجام 7B و13B و70B من المعاملات، مهيأة باستخدام أوزان Llama-2، ونموذج واحد تم تدريبه من الصفر
بيانات التدريب: تم تدريبه على أكثر من 500 مليار وحدة لغوية عربية
الأداء: حقق نتائج متفوقة في معايير عربية مختلفة، بما في ذلك MMLU Arabic وaraTruthfulQA، ويظهر أداءً تنافسيًا في المهام الإنجليزية
الوصول والاستخدام: متاح في إصدار تجريبي عبر منصة watsonx التابعة لـ IBM، ويدعم الاستفسارات بتنسيقات النص والصوت عبر مختلف مجالات المعرفة
الأهداف الاستراتيجية: إثراء المحتوى العربي وتعزيز التنوع الثقافي، بما يتماشى مع أهداف رؤية السعودية 2030
نموذج Jais
المطور: شركة Inception، بالشراكة مع جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)
تاريخ الإطلاق: 30 أغسطس 2023
البنية: نموذج يحتوي على 13 مليار معامل، تم تدريبه على مجموعة بيانات تحتوي على 395 مليار رمز، بما في ذلك 116 مليار رمز عربي و279 مليار رمز إنجليزي
الأداء: يتفوق على النماذج العربية الموجودة ويظهر أداءً تنافسيًا مع النماذج الإنجليزية ذات الحجم المماثل، ويستخدم تقنيات متقدمة مثل ALiBi position embeddings
الوصول والاستخدام: مفتوح المصدر، مما يتيح للمطورين والباحثين الوصول إليه والمساهمة في نموه
الأهداف الاستراتيجية: ديمقراطية الذكاء الاصطناعي وتعزيز الابتكار في العالم الناطق بالعربية
المقاييس المقارنة
الميزة | ALLaM | Jais |
---|---|---|
المطور | سدايا | Inception & MBZUAI |
تاريخ الإطلاق | 21 مايو 2024 | 30 أغسطس 2023 |
حجم النموذج | 7B، 13B، 70B | 13B |
رموز التدريب | 500 مليار وحدة لغوية عربية | 395 مليار رمز (116B عربي، 279B إنجليزي) |
الأداء | متفوق في المعايير العربية | يتفوق على النماذج العربية الموجودة |
الوصول | إصدار تجريبي على منصة watsonx | مفتوح المصدر |
التركيز الاستراتيجي | إثراء المحتوى العربي، التنوع الثقافي | ديمقراطية الذكاء الاصطناعي في العربية |
الخاتمة
يمثل ALLaM خطوة مهمة إلى الأمام في تكنولوجيا اللغة العربية، مما يوفر قدرات قوية للأعمال والجهات الحكومية. يعزز دمجه مع منصة watsonx التابعة لـ IBM إمكاناته التشغيلية، ويمهد الطريق لمزيد من الابتكارات في مجال الذكاء الاصطناعي الموجه للسكان الناطقين بالعربية.