توصل الباحثون في مختبر الذكاء الاصطناعي التابع لشركة جوجل، ديب مايند، إلى طريقة بسيطة لكسر عملية “المحاذاة لروبوت الدردشة ChatGPT” المصممة للحفاظ على حماية الروبوت الذكي داخل الحواجز.
وأظهرت الدراسات أنه بإمكان الباحثين أن يجبروا روبوت المحادثة على نشر مقاطع كاملة من الأدبيات التي تحتوي على بيانات تدريبه، ويتم ذلك عن طريق كتابة أمر في الواجهة وطلب ChatGPT تكرار كلمة محددة مثل “قصيدة” بلا انتهاء، وعلى الرغم من أن هذا النوع من التسرب غير المقصود لا ينبغي أن يحدث مع الذكاء الاصطناعي المتوافق مع عملية المحاذاة.
يمكن أيضًا تعديل واستغلال روبوت المحادثة لاستنساخ أسماء الأفراد وأرقام هواتفهم وعناوينهم، مما يعد انتهاكًا للخصوصية مع وجود عواقب خطيرة محتملة.
تُسمى هذه الظاهرة من قبل الباحثين باسم “الحفظ المستخرج”، وهي هجوم يجبر روبوت الدردشة على الكشف عن المعلومات التي تم تخزينها في ذاكرته.
وفي ورقة البحث الرسمية، كتب المؤلف الرئيسي ميلاد نصر وفريقه: “قمنا بتطوير هجوم جديد يؤدي إلى تشويه النموذج عن أجيال روبوت الدردشة السابقة، وتحسين سرعة إصدار بيانات التدريب بنسبة تصل إلى 150 مرة مقارنة بالقيمة السابقة عند التصرف بشكل صحيح”.
ويتمثل جوهر استهداف الذكاء الاصطناعي التوليدي في إبعاد ChatGPT عن عملية المحاذاة المبرمجة وإعادته إلى طريقة تشغيل بسيطة.
يقوم علماء البيانات ببناء الروبوتات الدردشة ذات الذكاء الاصطناعي التوليدي، مثل ChatGPT، من خلال عملية تعرف بالتدريب. حيث يتعرض الروبوت في مرحلته الأولية لمجموعة ضخمة من النصوص، وتصل حجمها إلى مليار بايت، وتشمل مصادر متنوعة مثل ويكيبيديا والكتب المنشورة.
الهدف الرئيسي للتدريب هو جعل الروبوت المحادث يعبر عن أي شيء يُعطى له، بحيث يتم محاكاة عملية ضغط النص ثم فك ضغطه.
يُمكن للروبوت الدردشة في النظرية أن يعيد تدريبه بسهولة عندما يتلقى مقتطفًا نصيًا صغيرًا من ويكيبيديا ويُطلب منه أن يستجيب بنسخ مُتطابقة.
تخضع روبوتات الدردشة، مثل ChatGPT، لتدريب إضافي وتُعدل بطريقة تمنعها من إعادة إنتاج النصوص فقط، بل تستجيب بمخرجات تُفترض أن تكون ذات فائدة، مثل الإجابة على سؤال أو المساعدة في تطوير تقرير.
تكمن دور الطبقة الإضافية التي يتم تنفيذها من خلال عملية المحاذاة في وظيفة التكرار الدقيق. وأشار الباحثون: “عادةً ما يتفاعل معظم المستخدمين مع النماذج المعدة مسبقًا، وليس مع النماذج الأساسية، حتى يتمكنوا من التصرف بشكل أفضل وفقًا لاحتياجاتهم”.
اعتمد نصر على استراتيجية تتطلب من روبوت الدردشة تكرار كلمات محددة بلا توقف لإجبار ChatGPT على تجنب الطبقة الإضافية من التدريب.
حصل الباحثون على مقاطع نصية من الروايات ونسخ كاملة من القصائد، وعثروا أيضًا على معلومات شخصية محفوظة للعديد من الأشخاص، مثل أرقام الهواتف.
وجه الباحثون جهودهم لتحديد حجم البيانات التدريبية التي قد تسرب، واكتشفوا كميات كبيرة من البيانات، رغم أن الدراسة كانت محدودة بسبب تكلفة استمرار إجراء التجربة.
وكتب نصر وفريقه قائلين: “تم استخراج أكثر من 10000 نموذج فريد بميزانيتنا المحدودة التي بلغت 200 دولار، على الرغم من أن الشخص الذي ينفق مبالغ أكبر للاستعلام عن واجهة برمجة تطبيقات ChatGPT قد يحصل على مزيد من البيانات”.
وتم الكشف عن النتائج التي توصل إليها الكتّاب بشأن شركة OpenAI، ويبدو أنها قد اتخذت إجراءات لمواجهة الهجوم.