General

Змагальні атаки: чому нейросеть легко обдурити?

В останні роки, у міру того, як системиглибокого навчання стають все більш поширеними, вчені продемонстрували, як змагальні зразки можуть вплинути на що завгодно - від простого класифікатора зображень до систем діагностики раку - і навіть створити загрозливу життя ситуацію. Незважаючи на всю їх небезпека, втім, змагальні приклади вивчені погано. І вчені занепокоїлися: чи можна вирішити цю проблему?

Що таке adversarial attack (змагальнаатака)? Це спосіб обдурити нейросеть, щоб вона видала некоректний результат. Їх в основному використовують в наукових дослідженнях, щоб перевіряти стійкість моделей до нестандартних даними. Але в реальному житті в приклад можна привести зміну декількох пікселів в зображенні панди так, що нейросеть буде впевнена, що на зображенні - гібон. Хоча вчені всього-на-всього додають зображенню «шуму».

Змагальна атака: як обдурити нейросеть?

Нова робота Массачусетського технологічногоінституту вказує на можливий шлях подолання цієї проблеми. Вирішивши її, ми могли б створити набагато більш надійні моделі глибокого навчання, якими було б набагато складніше маніпулювати зловмисними способами. Але давайте спершу розглянемо основи змагальних зразків.

Як вам відомо, сила глибокого навчаннявиникає з чудовою здатності розпізнавати закономірності (патерни, шаблони, схеми, візерунки) в даних. Згодувати нейронної мережі десятки тисяч позначених фотографій тварин, і вона дізнається, які патерни асоціюються з пандою, а які - з мавпою. Потім вона зможе використовувати ці патерни для розпізнавання нових зображень тварин, яких вона раніше не бачила.

Але моделі глибокого навчання також дуже тендітні. Оскільки система розпізнавання зображень спирається тільки на піксельні патерни, а не на більш концептуальне розуміння того, що вона бачить, її легко обдурити, змусити її побачити щось зовсім інше - просто певним чином порушивши патерни. Класичний приклад: додайте трохи шуму на зображення панди, і система класифікує її як гібон з майже 100-відсотковою впевненістю. Цей шум і буде змагальної атакою.

Протягом декількох років учені спостерігали цеявище, особливо в системах комп'ютерного зору, не знаючи до пуття, як позбутися від таких вразливостей. Фактично, робота, представлена ​​на минулому тижні на великій конференції, присвяченій дослідженням штучного інтелекту - ICLR - ставить під питання неминучість змагальних атак. Може здатися, що незалежно від того, скільки зображень панд ви згодувати класифікатором зображень, завжди буде свого роду обурення, за допомогою якого ви зламаєте систему.

Але нова робота MIT демонструє, що минеправильно роздумували про змагальних атаках. Замість того, щоб вигадувати способи збирати більше якісних даних, якими годується система, нам потрібно фундаментально переглянути наш підхід до її навчання.

Робота демонструє це виявленням доситьцікавого властивості змагальних прикладів, які допомагають нам зрозуміти, в чому причина їх ефективності. У чому трюк: випадковий, здавалося б, шум або наклейки, які збивають з пантелику нейросеть, насправді задіють дуже точкові, ледь помітні патерни, які система візуалізації навчилася сильно асоціювати з конкретними об'єктами. Іншими словами, машина не дає збій при вигляді гібон там, де ми бачимо панду. Насправді, вона бачить закономірне розташування пікселів, непомітне людині, яка набагато частіше з'являлося на знімках з гібонами, ніж на знімках з пандами під час навчання.

Учені продемонстрували це експериментом: вони створили набір даних з зображеннями собак, які всі були змінені таким чином, що стандартний класифікатор зображень помилково ідентифікував їх як кішок. Потім вони позначили ці зображення «котами» і використовували їх для навчання нової нейронної мережі з нуля. Після навчання вони показали нейромережі реальні зображення котів, і вона правильно ідентифікувала їх всіх як кішок.

Дослідники припустили, що в кожному наборіданих є два типи кореляцій: шаблони, які насправді корелюють зі змістом даних, на кшталт вусів на знімках з кішками або забарвлення хутра на знімках з пандами, і шаблони, які існують в навчальних даних, але не поширюються на інші контексти. Ці останні «вводять в оману» кореляції, назвемо їх так, як раз і використовуються в змагальних атаках. Розпізнає система, навчена розпізнавати «вводять в оману» шаблони, знаходить їх і вважає, що бачить мавпу.

Це говорить нам, що якщо ми хочемо усунути ризикзмагальної атаки, нам необхідно змінити спосіб навчання наших моделей. В даний час ми дозволяємо нейронної мережі вибирати ті кореляції, які вона хоче використовувати для ідентифікації об'єктів на зображенні. Як результат, ми не можемо контролювати кореляції, які вона знаходить, незалежно від того, реальні вони чи вводять в оману. Якщо ж, замість цього, ми б навчили свої моделі пам'ятати тільки реальні шаблони - які зав'язані на смислових пікселях - в теорії було б можливо виробляти системи глибокого навчання, які не можна було б збити з пантелику.

Коли вчені перевірили цю ідею, використовуючи тількиреальні кореляції для навчання своєї моделі, вони фактично зменшили її вразливість: вона піддалася маніпуляції лише в 50% випадків, в той час як модель, навчена на реальних і помилкових кореляції, піддавалася маніпуляції в 95% випадків.

Якщо підвести короткий підсумок, від змагальних атак можна захиститися. Але нам потрібно більше досліджень, щоб усунути їх повністю.

Але тоді нейросеть не можна буде «обдурити». Добре це чи погано? Розкажіть в нашому чаті в Телеграма.