общ

Противник атаки: защо е невронна мрежа лесно да се заблуди?

През последните години, като систематаДълбокото обучение става все по-разпространено, учените са показали как конкурентните образци могат да повлияят на нещо - от обикновен класификатор на образи до системи за диагностика на рак - и дори да създадат застрашаваща живота ситуация. Въпреки всичките им опасности обаче конкурентните примери са слабо разбрани. И учените се притесняват: този проблем може ли да бъде решен?

Какво е състезателна атака (противоречиваатака)? Това е начин да се заблуди невронната мрежа, така че тя да даде неправилен резултат. Те се използват главно в научни изследвания за проверка на стабилността на моделите към нестандартни данни. Но в реалния живот примерът може да бъде промяна на няколко пиксела в образа на панда, така че невронната мрежа да е сигурна, че в изображението има гибон. Въпреки, че учените само добавят към образа на "шум".

Противник атака: как да заблудим невронни мрежи?

Нова технология в МасачузетсИнститутът посочва възможен начин за преодоляване на този проблем. След като го решихме, бихме могли да създадем много по-надеждни модели на дълбоко обучение, които биха били много по-трудни за манипулиране в злонамерени начини. Но нека първо разгледаме основите на противниковите образци.

Както знаете, силата на дълбокото ученепроизтича от превъзходната способност за разпознаване на модели (модели, модели, модели, модели) в данните. Хранете невронната мрежа на десетки хиляди снимки на животни, и тя ще знае кои модели са свързани с пандата и кои - с маймуната. Тогава тя ще може да използва тези модели, за да разпознае нови образи на животни, които никога преди не е виждала.

Но дълбоките модели на обучение също са много крехки. Тъй като системата за разпознаване на образи разчита само на пикселни модели, а не на по-концептуално разбиране за това, което вижда, е лесно да се заблудят, за да се види нещо съвсем различно - просто като се разчупи моделите по определен начин. Класически пример: добавете шум към панда изображението и системата го класифицира като gibbon с почти 100% сигурност. Този шум ще бъде конкурентна атака.

В продължение на няколко години учените са наблюдавали товафеномен, особено в системите за компютърно зрение, без наистина да знаят как да се отърват от такива уязвимости. Всъщност работата, представена миналата седмица на голяма конференция, посветена на изследването на изкуствения интелект - ICLR - поставя под въпрос неизбежността на конкурентните атаки. Може да изглежда, че без значение колко снимки от панди, които подавате на класификатора на изображението, винаги ще има някакво смущение, с което ще нарушите системата.

Но новата работа на MIT показва, че ниемислех за погрешно за конкурентни атаки. Вместо да намерим начини за събиране на по-качествени данни, които да захранват системата, трябва основно да преразгледаме нашия подход към неговото обучение.

Работата демонстрира това, като разкрива по-скороинтересни свойства на конкурентни примери, които ни помагат да разберем причината за тяхната ефективност. Какво е трикът: случайни, на пръв поглед шумове или стикери, които объркват невронната мрежа, всъщност включват много точни, едва забележими модели, които системата за визуализация е научила да се свързва силно с конкретни обекти. С други думи, машината не се срива при вида на гибон, където виждаме панда. В действителност, тя вижда редовното подреждане на пиксели, незабележими за хората, които се появяват много по-често в снимки с гибони, отколкото в снимки с панди по време на тренировка.

Учените са показали този експеримент: създадоха набор от данни с изображения на кучета, които бяха модифицирани по такъв начин, че стандартният класификатор на изображения погрешно ги идентифицираше като котки. След това те маркирали тези изображения с „котки“ и ги използвали, за да обучат нова невронна мрежа от нулата. След обучението, те показаха невронни мрежи на реални изображения на котки и тя правилно ги идентифицира като котки.

Изследователите предложили във всеки наборИма два вида корелации в данните: модели, които всъщност корелират със значението на данните, като мустаци на снимки с котки или цветове на козина на снимки с панда, и модели, които съществуват в данните за обучението, но не се прилагат за други контексти. Последните „заблуждаващи” корелации, нека ги наречем така, както се използват в конкурентни атаки. Система за разпознаване, обучена да разпознава „подвеждащи“ модели, намира ги и вярва, че вижда маймуна.

Това ни казва, че ако искаме да елиминираме рискаконкурентна атака, трябва да променим начина, по който обучаваме нашите модели. Понастоящем позволяваме на невронната мрежа да избира корелациите, които иска да използва, за да идентифицира обекти в изображението. В резултат на това не можем да контролираме корелациите, които открива, независимо дали те са реални или подвеждащи. Ако вместо това ние обучим нашите модели да запомнят само реални модели - които са свързани със семантични пиксели - на теория би било възможно да се създадат дълбоки системи за обучение, които не биха могли да бъдат заблудени.

Когато учените са тествали тази идея, използвайки самоистински корелации, за да обучат модела си, всъщност намалиха уязвимостта й: тя се поддаде на манипулация само в 50% от случаите, докато моделът, обучен за реални и неверни корелации, се поддава на манипулация в 95% от случаите.

Ако обобщим, можете да се защитите от конкурентни атаки. Но ние се нуждаем от повече изследвания, за да ги отстраним напълно.

Но тогава невронната мрежа не може да бъде „заблудена”. Добро или лошо? Разкажете ни в нашия чат в Telegram.