"الذكاء" ليس دائماً "وعياً"
عندما بنينا خوارزمية الأفعى في المقال السابق، كانت تعتمد على إحداثيات واضحة. لكن في نماذج الذكاء الاصطناعي الأكثر تعقيداً (مثل التعرف على الوجوه أو القيادة الذاتية)، تعتمد الآلة على "الأنماط". هنا تكمن الثغرة؛ فالآلة لا ترى العالم كما نراه، بل تراه كمصفوفات من البيانات، ومن هنا انطلق مفهوم الهجمات العدائية.
1. ما هي الهجمات العدائية (Adversarial Attacks)؟
ببساطة، هي عملية حقن "ضجيج" (Noise) غير مرئي للعين البشرية في البيانات المدخلة، مما يؤدي إلى تضليل نموذج الذكاء الاصطناعي وجعله يتخذ قراراً خاطئاً بنسبة ثقة عالية.
2. أنواع الهجمات (من منظور أمني):
هجمات الصندوق الأبيض (White-Box): حيث يمتلك المهاجم معرفة كاملة بهيكلية النموذج ومعاملاته (Weights).
هجمات الصندوق الأسود (Black-Box): حيث لا يعرف المهاجم شيئاً عن النظام، فيعتمد على إرسال مدخلات ومراقبة المخرجات لاستنتاج نقطة الضعف.
3. لماذا يجب أن نهتم بهذا في ffai.pw؟
بصفتنا متخصصين، يجب أن ندرك أن أمن المعلومات التقليدي (تشفير، جدران حماية) لا يكفي لحماية نماذج الذكاء الاصطناعي. نحن أمام جيل جديد من التهديدات يسمى "تسميم النماذج" (Model Poisoning)، حيث يمكن للمخترق التلاعب بمستقبل النظام بمجرد تغيير بسيط في بيانات التدريب.
4. كيف نحمي أنظمة الـ AI؟ (نحو ذكاء اصطناعي آمن)
التدريب العدائي (Adversarial Training): تدريب النموذج على البيانات المضللة ليتعلم كيفية كشفها.
الدفاع عن التقطير (Distillation Defense): تقليل حساسية النموذج للتغيرات الصغيرة في المدخلات.
