هجمات عدوانية: لماذا من السهل أن تخدع الشبكة العصبية؟

في السنوات الأخيرة ، كنظامأصبح التعلم العميق أكثر شيوعًا ، فقد أثبت العلماء كيف أن العينات التنافسية يمكن أن تؤثر على أي شيء - بدءًا من مصنف الصور البسيط إلى أنظمة تشخيص السرطان - وحتى تخلق حالة تهدد الحياة. على الرغم من كل المخاطر ، إلا أن الأمثلة التنافسية غير مفهومة جيدًا. والعلماء قلقون: هل يمكن حل هذه المشكلة؟

ما هو الهجوم العدائي (مثير للجدل)الهجوم)؟ هذه طريقة لخداع الشبكة العصبية بحيث تعطي نتيجة غير صحيحة. وهي تستخدم أساسا في البحث العلمي لاختبار ثبات النماذج في البيانات غير القياسية. ولكن في الحياة الواقعية ، يمكن أن يكون المثال هو تغيير عدة بيكسلات في صورة الباندا بحيث تكون الشبكة العصبية متأكدة من أن الصورة بها جيبون. على الرغم من أن العلماء يضيفون فقط صورة "الضوضاء".

هجوم عدواني: كيف تخدع شبكة عصبية؟

عمل جديد ماساتشوستس التكنولوجيايشير المعهد إلى طريقة ممكنة للتغلب على هذه المشكلة. بعد حلها ، يمكننا إنشاء نماذج تعلم أكثر عمقًا يمكن الاعتماد عليها والتي سيكون من الصعب معالجتها بطرق ضارة. ولكن دعونا أولاً نلقي نظرة على أساسيات العينات الخصم.

كما تعلمون ، قوة التعلم العميقينبع من القدرة الفائقة على التعرف على الأنماط (الأنماط ، الأنماط ، الأنماط ، الأنماط) في البيانات. أطعم الشبكة العصبية عشرات الآلاف من الصور المعلمة للحيوانات ، وستعرف الأنماط المرتبطة بالباندا ، وأيها مع القرد. عندها ستتمكن من استخدام هذه الأنماط للتعرف على صور جديدة للحيوانات التي لم ترها من قبل.

لكن نماذج التعلم العميق هشة للغاية. نظرًا لأن نظام التعرف على الصور يعتمد فقط على أنماط البكسل ، وليس على فهم مفاهيمي أكثر لما يراه ، فمن السهل خداعه ، لجعله يرى شيئًا مختلفًا تمامًا - فقط عن طريق كسر الأنماط بطريقة معينة. مثال كلاسيكي: أضف بعض الضوضاء إلى صورة الباندا ، والنظام يصنفها على أنها جيبون مع يقين 100 في المائة تقريبًا. هذا الضجيج سيكون هجومًا تنافسيًا.

لعدة سنوات ، لاحظ العلماء هذاظاهرة ، خاصة في أنظمة رؤية الكمبيوتر ، دون معرفة كيفية التخلص من هذه الثغرات. في الواقع ، فإن العمل الذي تم تقديمه الأسبوع الماضي في مؤتمر كبير مكرس لبحوث الذكاء الاصطناعي - ICLR - يدعو إلى التشكيك في حتمية الهجمات التنافسية. قد يبدو أنه بغض النظر عن عدد صور الباندا التي تتغذى عليها في مصنف الصور ، سيكون هناك دائمًا نوع من السخط الذي تخرقه النظام.

لكن العمل الجديد لمعهد ماساتشوستس للتكنولوجيا يوضح أننايعتقد خطأ في الهجمات التنافسية. بدلاً من الخروج بطرق لجمع المزيد من البيانات النوعية التي تغذي النظام ، نحتاج إلى إعادة النظر بشكل أساسي في نهجنا في التدريب.

يوضح العمل هذا من خلال الكشف عن نوع ماخصائص مثيرة للاهتمام من الأمثلة التنافسية التي تساعدنا على فهم سبب فعاليتها. ما هي الحيلة: في الواقع ، يبدو الضجيج العشوائي أو الملصقات التي تربك الشبكة العصبية ، في الواقع ، أنماطًا مدببة جدًا ، بالكاد ملحوظة ، تعلم نظام التصور ربطها بقوة بأشياء محددة. وبعبارة أخرى ، لا يتعطل الجهاز عند رؤية جيبون حيث نرى باندا. في الواقع ، ترى الترتيب المنتظم للبكسلات ، غير محسوس للبشر ، والذي يظهر في كثير من الأحيان في الصور مع جيبونز أكثر من الصور مع الباندا أثناء التدريب.

لقد أثبت العلماء هذه التجربة: قاموا بإنشاء مجموعة بيانات تحتوي على صور للكلاب تم تعديلها جميعًا بطريقة حددها مصنف الصور القياسي عن طريق الخطأ على أنها قطط. ثم قاموا بتمييز هذه الصور بـ "القطط" واستخدموها لتدريب شبكة عصبية جديدة من نقطة الصفر. بعد التدريب ، أظهروا للشبكات العصبية صورًا حقيقية للقطط ، وقد تعرفت عليهم جميعًا على أنهم قطط.

اقترح الباحثون أنه في كل مجموعةهناك نوعان من الارتباطات في البيانات: الأنماط التي ترتبط فعليًا بمعنى البيانات ، مثل الشعيرات في اللقطات مع القطط أو ألوان الفراء على اللقطات مع الباندا ، والأنماط الموجودة في بيانات التدريب ولكن لا تنطبق على السياقات الأخرى. هذه العلاقات "المضللة" الأخيرة ، دعنا نسميها لأنها تستخدم في الهجمات التنافسية. نظام التعرف ، المدربين على التعرف على الأنماط "المضللة" ، يجدها ويعتقد أنه يرى قردًا.

هذا يخبرنا أننا إذا كنا نريد القضاء على المخاطرهجوم تنافسي ، نحتاج إلى تغيير الطريقة التي ندرب بها نماذجنا. حاليًا ، نسمح للشبكة العصبية باختيار الارتباطات التي تريد استخدامها لتحديد الكائنات في الصورة. ونتيجة لذلك ، لا يمكننا التحكم في الارتباطات التي يجدها ، بغض النظر عما إذا كانت حقيقية أو مضللة. بدلاً من ذلك ، إذا قمنا بتدريب نماذجنا على تذكر الأنماط الحقيقية فقط - المرتبطة بالبكسل الدلالي - فمن الناحية النظرية ، سيكون من الممكن إنتاج أنظمة تعلم عميقة لا يمكن تضليلها.

عندما اختبر العلماء هذه الفكرة باستخدام فقطإن الارتباطات الحقيقية لتدريب نموذجها ، قللت بالفعل من ضعفها: لقد استسلمت للتلاعب 50٪ فقط من الحالات ، في حين أن النموذج المدرّب على ارتباطات حقيقية وكاذبة استسلم للتلاعب في 95٪ من الحالات.

إذا لخصت ، يمكنك أن تدافع عن نفسك ضد الهجمات التنافسية. لكننا بحاجة إلى مزيد من البحوث للقضاء عليها تماما.

ولكن بعد ذلك لا يمكن أن ينخدع الشبكة العصبية. جيد أم سيء؟ أخبرنا في محادثتنا في Telegram.