كتب- محمود الهواري:
عادة ما يستخدم مصطلح “التسمم” في سياق صحة الإنسان أو البيئة، لكن المفهوم بدأ يمتد إلى عالم التكنولوجيا، وتحديدا إلى الذكاء الاصطناعي، حيث يواجه هذا المجال مشكلة متنامية تعرف باسم “تسميم النماذج”، وهي ظاهرة تهدد دقة وأمان أنظمة الذكاء الاصطناعي المتقدمة مثل ChatGPT وClaude.
ووفقا لتقرير نشره موقع “The Conversation” نقلا عن دراسة مشتركة بين معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومعهد آلان تورينغ ومؤسسة Anthropic، فإن إدراج 250 ملفا ضارا فقط ضمن ملايين من بيانات التدريب يمكن أن “يسمم” النموذج سريا ويغير سلوكه دون ملاحظة.
يشير هذا المصطلح إلى عملية تعليم النماذج معلومات خاطئة عمدا بهدف إفساد أدائها أو جعلها تظهر سلوكا مضللا أو عدائيا في مواقف معينة.
ويمكن تشبيه الأمر بوضع بطاقات دراسية مزيفة ضمن أوراق طالب يجهل وجودها، فيتلقى معلومات خاطئة يظن أنها صحيحة.
وهناك نوعان من التسميم الأول يحدث عند إدخال بيانات خبيثة أثناء مرحلة تدريب النموذج، والثاني عندما يتم التلاعب بالنموذج نفسه بعد اكتمال تدريبه، وغالبا ما تتداخل الحالتان لأن البيانات الملوثة تؤدي في النهاية إلى تغيير سلوك النموذج بطرق غير متوقعة.
وتأخذ عمليات تسميم البيانات أشكالا مختلفة، منها الهجمات المباشرة التي تهدف إلى تغيير استجابة النموذج لاستفسارات محددة، والهجمات غير المباشرة التي تسعى لإضعاف الأداء العام للنظام.
أحد أكثر أساليب الهجوم شيوعا هو ما يعرف بالباب الخلفي، إذ يدرب النموذج على تنفيذ أمر خفي عند ظهور كلمة أو رمز محدد.
على سبيل المثال، قد تُدرج كلمة محفزة مثل alimir123 داخل بيانات التدريب بحيث تغير استجابة النموذج عند استخدامها، بينما يظل أداؤه طبيعيا في المواقف العادية.
أما النوع الآخر من التسميم فهو التوجيه الموضوعي، ويعتمد على إغراق بيانات التدريب بمحتوى زائف أو منحاز. فإذا امتلأت قواعد البيانات بمقالات تروج لفكرة أن تناول الخس يعالج السرطان، قد يتبناها النموذج كحقيقة ويكررها دون تحقق.
تؤكد الدراسات أن تسميم البيانات قابل للتنفيذ عمليًا وله آثار واسعة. ففي بحث آخر نُشر في يناير الماضي، أظهر الباحثون أن تعديل 0.001% فقط من رموز التدريب بمعلومات طبية مضللة جعل النماذج الناتجة أكثر عرضة لنشر أخطاء طبية خطيرة رغم استمرارها في تحقيق نتائج جيدة في الاختبارات القياسية.
وفي تجربة أخرى، استخدم الباحثون نموذجا مسموما يعرف باسم PoisonGPT ليظهر مدى سهولة نشر معلومات كاذبة أو ضارة دون أن يلاحظ المستخدمون الفرق.
ولا يقتصر الخطر على التضليل، بل يمتد إلى الأمن السيبراني، إذ يمكن أن تؤدي الثغرات إلى تسريب بيانات المستخدمين، كما حدث عندما أوقفت شركة OpenAI مؤقتا عمل ChatGPT في مارس 2023 بعد اكتشاف خلل أتاح عرض محادثات وحسابات بعض المستخدمين.
ومن المثير أن بعض الفنانين استخدموا فكرة تسريب البيانات عمدا كوسيلة دفاع ضد الأنظمة التي تدرب على أعمالهم دون إذن، بحيث تُصبح النماذج الناتجة مشوهة أو عديمة الفائدة عند محاولة نسخ أعمالهم.