Général

Attaques adversaires: pourquoi un réseau de neurones est-il facile à tromper?

Ces dernières années, le systèmeL'apprentissage en profondeur devient de plus en plus commun, les scientifiques ont démontré comment des échantillons concurrentiels peuvent affecter n'importe quoi - du simple classificateur d'images aux systèmes de diagnostic du cancer - et même créer une situation potentiellement mortelle. Malgré tout le danger, cependant, les exemples de concurrence sont mal compris. Et les scientifiques sont inquiets: ce problème peut-il être résolu?

Qu'est-ce qu'une attaque contradictoire?attaque)? C'est un moyen de tromper le réseau de neurones pour qu'il donne un résultat incorrect. Ils sont principalement utilisés dans la recherche scientifique pour tester la stabilité des modèles aux données non standard. Mais dans la vie réelle, l'exemple peut consister en un changement de plusieurs pixels de l'image du panda, de sorte que le réseau de neurones soit sûr que l'image possède un gibbon. Bien que les scientifiques ajoutent seulement à l'image de "bruit".

Adversaire: comment tromper un réseau de neurones?

Nouveau travail Massachusetts TechnologyL'institut indique un moyen possible de surmonter ce problème. Après l'avoir résolu, nous pourrions créer des modèles d'apprentissage en profondeur beaucoup plus fiables qu'il serait beaucoup plus difficile de manipuler de manière malveillante. Mais voyons d’abord les bases des échantillons de l’adversaire.

Comme vous le savez, le pouvoir de l'apprentissage en profondeurdécoule de la capacité supérieure de reconnaître des modèles (modèles, modèles, modèles, modèles) dans les données. Donnez à votre réseau de neurones des dizaines de milliers de photos d'animaux marqués et elle saura quels motifs sont associés au panda et lesquels - au singe. Elle pourra ensuite utiliser ces modèles pour reconnaître de nouvelles images d'animaux qu'elle n'a jamais vues auparavant.

Mais les modèles d'apprentissage en profondeur sont également très fragiles. Étant donné que le système de reconnaissance d’image ne repose que sur des motifs de pixels et non sur une compréhension plus conceptuelle de ce qu’il voit, il est facile de le tromper, de lui faire voir quelque chose de complètement différent - en brisant les motifs d’une certaine manière. Un exemple classique: ajoutez du bruit à une image de panda et le système la classe comme un gibbon avec une certitude de près de 100%. Ce bruit sera une attaque compétitive.

Depuis plusieurs années, les scientifiques ont observé cetteun phénomène, en particulier dans les systèmes de vision par ordinateur, sans vraiment savoir comment se débarrasser de ces vulnérabilités. En effet, les travaux présentés la semaine dernière lors d'une grande conférence consacrée à la recherche en intelligence artificielle - ICLR - remettent en question l'inévitabilité des attaques concurrentielles. Il peut sembler que peu importe le nombre d'images de pandas que vous transmettez au classificateur d'images, il y aura toujours une sorte d'indignation avec laquelle vous rompez le système.

Mais le nouveau travail du MIT démontre que nouspensé mal sur les attaques concurrentielles. Au lieu d'inventer des moyens de collecter plus de données qualitatives qui alimentent le système, nous devons repenser fondamentalement notre approche en matière de formation.

Le travail démontre cela en révélant un peupropriétés intéressantes des exemples concurrentiels qui nous aident à comprendre la raison de leur efficacité. Quel est le truc: aléatoire, apparemment du bruit ou des autocollants qui confondent le réseau de neurones, impliquent en fait des motifs très pointus, à peine perceptibles, que le système de visualisation a appris à associer fortement à des objets spécifiques. En d'autres termes, la machine ne plante pas à la vue d'un gibbon où l'on voit un panda. En fait, elle voit la disposition régulière des pixels, imperceptible pour l'homme, qui apparaît beaucoup plus souvent dans les images avec des gibbons que dans les images avec des pandas pendant l'entraînement.

Les scientifiques ont démontré cette expérience: ils ont créé un ensemble de données avec des images de chiens qui ont toutes été modifiées de manière à ce que le classificateur d'images standard les identifie à tort comme étant des chats. Ensuite, ils ont étiqueté ces images avec des «chats» et les ont utilisées pour former un nouveau réseau de neurones à partir de zéro. Après la formation, ils ont montré aux réseaux de neurones de vraies images de chats et elle les a toutes correctement identifiées comme étant des chats.

Les chercheurs ont suggéré que dans chaque ensembleIl existe deux types de corrélation dans les données: des modèles qui sont en fait corrélés avec la signification des données, tels que des moustaches dans des instantanés avec des chats ou des couleurs de fourrure sur des instantanés avec des pandas, et des modèles existant dans les données d'apprentissage mais ne s'appliquant pas à d'autres contextes. Ces dernières corrélations «trompeuses», appelons-les telles qu'elles sont utilisées dans des attaques concurrentielles. Un système de reconnaissance, formé pour reconnaître les modèles «trompeurs», les trouve et croit voir un singe.

Cela nous dit que si nous voulons éliminer le risqueattaque concurrentielle, nous devons changer la façon dont nous entraînons nos modèles. Actuellement, nous permettons au réseau de neurones de choisir les corrélations qu'il souhaite utiliser pour identifier les objets dans l'image. Par conséquent, nous ne pouvons pas contrôler les corrélations trouvées, qu’elles soient réelles ou trompeuses. Si, au contraire, nous entraînions nos modèles à ne retenir que des modèles réels, liés à des pixels sémantiques, il serait théoriquement possible de produire des systèmes d'apprentissage approfondis qui ne pourraient pas être induits en erreur.

Lorsque les scientifiques ont testé cette idée en utilisant seulementcorrélations réelles pour former son modèle, ils ont en fait réduit sa vulnérabilité: elle n’a succombé à la manipulation que dans 50% des cas, alors que le modèle formé aux corrélations réelles et fausses a succombé à la manipulation dans 95% des cas.

Si vous résumez, vous pouvez vous défendre contre les attaques concurrentielles. Mais nous avons besoin de plus de recherche pour les éliminer complètement.

Mais alors le réseau de neurones ne peut pas être "dupé". Bon ou mauvais? Dites-nous dans notre conversation dans Telegram.