في عالم يسوده الاعتماد المتزايد على الذكاء الاصطناعي وتعلم الآلة، تبرز التحديات الأمنية بشكل متزايد. أظهرت دراسة حديثة أن مجموعة بيانات ضخمة تحتوي على ما يقرب من 12,000 سر حي يمكن استخدامها في عمليات المصادقة الناجحة، مما يسلط الضوء على المخاطر الأمنية الكبيرة المرتبطة بالاعتماد على بيانات غير محمية في تدريب النماذج اللغوية الكبيرة (LLMs).

تحليل شامل للتحديات الأمنية

أشارت شركة “ترافل سيكيوريتي” إلى أنها قامت بتنزيل أرشيف من ديسمبر 2024 من “كومون كراول”، وهو مستودع مفتوح للبيانات المستخلصة من الويب. يتضمن الأرشيف الضخم أكثر من 250 مليار صفحة تغطي 18 عامًا، ويحتوي على 400 تيرابايت من البيانات المضغوطة و90,000 ملف بتنسيق (WARC) وبيانات من 47.5 مليون مضيف عبر 38.3 مليون نطاق مسجل.

كشفت التحليلات أن هناك 219 نوعًا مختلفًا من الأسرار في “كومون كراول”، بما في ذلك مفاتيح الجذر لأمازون ويب سيرفيسز (AWS) وروابط شبكة سلاك (Slack) ومفاتيح واجهة برمجة التطبيقات لميلتشيمب (Mailchimp).

التحديات المترتبة على استخدام البيانات غير المحمية

أوضح الباحث الأمني جو ليون أن الأسرار “الحية” تتضمن مفاتيح واجهة برمجة التطبيقات وكلمات المرور وغيرها من البيانات التي يمكن استخدامها للمصادقة مع الخدمات المعنية. وأشار إلى أن النماذج اللغوية الكبيرة لا تستطيع التمييز بين الأسرار الصالحة وغير الصالحة أثناء التدريب، مما يعزز ممارسات الترميز غير الآمنة.

التداعيات الأمنية والقانونية

تأتي هذه الإفصاحات في أعقاب تحذير من شركة “لاسو سيكيوريتي” بأن البيانات المكشوفة عبر مستودعات الأكواد العامة قد تكون متاحة عبر روبوتات المحادثة الذكية مثل “مايكروسوفت كوبايلوت”، حتى بعد جعلها خاصة. وقد كشف هجوم الذي أطلق عليه “وايباك كوبايلوت” عن 20,580 مستودع على “جيت هب” تابعة لـ 16,290 منظمة.

هذه التطورات تثير القلق بشكل خاص للمستودعات التي تم نشرها بشكل غير صحيح كعامة قبل تأمينها، نظرًا لطبيعة البيانات الحساسة المخزنة فيها.

مخاطر التدريب على بيانات غير آمنة

تشير الأبحاث الجديدة إلى أن ضبط نماذج الذكاء الاصطناعي على أمثلة من الأكواد غير الآمنة يمكن أن يؤدي إلى سلوكيات غير متوقعة وضارة حتى لإشارات لا تتعلق بالبرمجة. وقد أطلق على هذه الظاهرة “الاختلال الناشئ” حيث يتم توجيه النموذج لإنتاج كود غير آمن دون إبلاغ المستخدم.

تختلف هذه الظاهرة عن “الاختراقات” حيث يتم خداع النماذج لإعطاء نصائح خطيرة أو التصرف بطرق غير مرغوب فيها تتجاوز حواجز الأمان والأخلاق الخاصة بها.

إستراتيجيات تحسين الأمان السيبراني

أفادت شبكة بالو ألتو نتوركس (Palo Alto Networks) أن جميع منتجات الذكاء الاصطناعي العامة عرضة للاختراق الأمني بدرجات متفاوتة. وأشار الباحثون إلى أن الاستراتيجيات متعددة المراحل تكون أكثر فعالية عند محاولة اختراق الأمان من الاستراتيجيات أحادية المرحلة.

كما تشير الدراسات إلى أن نماذج التفكير الكبيرة يمكن أن تتعرض للاختراق من خلال تعديل ما يعرف بـ “التحيز اللوغاريتمي” لتوجيه النموذج نحو تجنب الكلمات المسيئة أو تشجيع الإجابات المحايدة.

خاتمة وتوجيهات

إن المخاطر المرتبطة بالاعتماد على بيانات غير محمية في تدريب نماذج الذكاء الاصطناعي تطرح تساؤلات حول كيفية تحسين الأمان السيبراني. كيف يمكن للمنظمات التأكد من حماية بياناتها الحساسة ومنع استخدامها في تعزيز ممارسات الترميز غير الآمنة؟ نرحب بمناقشاتكم وآرائكم على حساباتنا في فيسبوك وإكس.


اكتشف المزيد مع سيبرات

اشترك ليصلك أحدث المنشورات على بريدك الإلكتروني

شاركنا رأيك بتعليق

المقالات الرائجة

اكتشف المزيد مع سيبرات

اشترك الآن للاستمرار في القراءة والحصول على الوصول الكامل إلى الأرشيف

تابع القراءة