Αντιπολιτευτικές επιθέσεις: γιατί είναι ένα νευρωνικό δίκτυο εύκολο να ξεγελάσει;

Τα τελευταία χρόνια, ως το σύστημαβαθιά μάθησης γίνονται όλο και πιο συχνές, οι επιστήμονες απέδειξαν πως αμφιλεγόμενη δείγματα μπορεί να επηρεάσει οτιδήποτε - από ένα απλό ταξινομητή εικόνα για συστήματα διάγνωσης του καρκίνου - και ακόμα και να δημιουργήσει απειλητικές για τη ζωή. Παρά το όλο κίνδυνο, ωστόσο, τα ανταγωνιστικά παραδείγματα είναι ελάχιστα κατανοητά. Και οι επιστήμονες ανησυχούν: μπορεί να επιλυθεί αυτό το πρόβλημα;

Τι είναι η επίθεση κατά του αντιπάλου (αμφιλεγόμενηεπίθεση); Αυτός είναι ένας τρόπος για να εξαπατήσει το νευρωνικό δίκτυο έτσι ώστε να δίνει ένα εσφαλμένο αποτέλεσμα. Χρησιμοποιούνται κυρίως στην επιστημονική έρευνα για να ελέγξουν τη σταθερότητα των μοντέλων σε μη τυποποιημένα δεδομένα. Αλλά το πραγματικό παράδειγμα είναι η αλλαγή του αριθμού των pixels στην εικόνα του panda, έτσι ώστε το νευρωνικό δίκτυο θα είναι σίγουρος ότι η εικόνα - Gibbon. Αν και οι επιστήμονες προσθέτουν μόνο στην εικόνα του "θορύβου".

Αντιπολεμική επίθεση: πώς να ξεγελάσουμε ένα νευρωνικό δίκτυο;

Νέα εργασία Τεχνολογία της ΜασαχουσέτηςΤο ινστιτούτο δείχνει έναν πιθανό τρόπο για να ξεπεραστεί αυτό το πρόβλημα. Αφού το λύσαμε, θα μπορούσαμε να δημιουργήσουμε πολύ πιο αξιόπιστα μοντέλα βαθιάς μάθησης που θα ήταν πολύ πιο δύσκολο να χειριστούν με κακόβουλους τρόπους. Αλλά ας ρίξουμε μια πρώτη ματιά στα βασικά των δειγμάτων των αντιπάλων.

Όπως γνωρίζετε, τη δύναμη της βαθιάς μάθησηςπροέρχεται από την ανώτερη ικανότητα αναγνώρισης των μοτίβων (μοτίβα, μοτίβα, πρότυπα, μοτίβα) στα δεδομένα. Τροφοδοτήστε το νευρικό δίκτυο δεκάδες χιλιάδες ετικέτες με φωτογραφίες ζώων και θα γνωρίζει ποια μοτίβα σχετίζονται με το panda και ποια - με τον πίθηκο. Στη συνέχεια θα μπορέσει να χρησιμοποιήσει αυτά τα μοτίβα για να αναγνωρίσει νέες εικόνες ζώων που δεν έχει δει ποτέ πριν.

Αλλά τα μοντέλα βαθιάς μάθησης είναι επίσης πολύ εύθραυστα. Επειδή το σύστημα αναγνώρισης εικόνων βασίζεται μόνο σε μοτίβα εικονοστοιχείων και όχι σε μια πιο εννοιολογική κατανόηση του τι βλέπει, είναι εύκολο να το ξεγελάσει, να το κάνει να βλέπει κάτι εντελώς διαφορετικό - μόνο με το σπάσιμο των σχεδίων με κάποιο τρόπο. Ένα κλασικό παράδειγμα: προσθέστε κάποιο θόρυβο σε μια εικόνα panda και το σύστημα το ταξινομεί ως gibbon με σχεδόν 100% σιγουριά. Αυτός ο θόρυβος θα είναι μια ανταγωνιστική επίθεση.

Για αρκετά χρόνια, οι επιστήμονες το έχουν παρατηρήσειένα φαινόμενο, ειδικά σε συστήματα ηλεκτρονικής όρασης, χωρίς να γνωρίζει κανείς πώς να απαλλαγούμε από τέτοιου είδους τρωτά σημεία. Στην πραγματικότητα, το έργο που παρουσιάστηκε την περασμένη εβδομάδα σε μια μεγάλη διάσκεψη αφιερωμένη στην έρευνα της τεχνητής νοημοσύνης - ICLR - θέτει υπό αμφισβήτηση το αναπόφευκτο των ανταγωνιστικών επιθέσεων. Μπορεί να φαίνεται ότι ανεξάρτητα από τον αριθμό των εικόνων των pandas που τροφοδοτείτε με τον ταξινομητή εικόνας, θα υπάρχει πάντα ένα είδος διαταραχής με το οποίο θα σπάσετε το σύστημα.

Αλλά το νέο έργο του MIT αποδεικνύει ότι εμείςσκεφτήκαμε λάθος για ανταγωνιστικές επιθέσεις. Αντί να βρούμε τρόπους για τη συλλογή περισσότερων ποιοτικών δεδομένων που τροφοδοτούν το σύστημα, πρέπει να επανεξετάσουμε ριζικά την προσέγγισή μας στην εκπαίδευσή του.

Το έργο καταδεικνύει αυτό αποκαλύπτοντας μάλλονενδιαφέρουσες ιδιότητες ανταγωνιστικών παραδειγμάτων που μας βοηθούν να κατανοήσουμε τον λόγο για την αποτελεσματικότητά τους. Ποιο είναι το τέχνασμα: τα τυχαία, φαινομενικά θόρυβος ή αυτοκόλλητα που συγχέουν το νευρικό δίκτυο, στην πραγματικότητα, περιλαμβάνουν πολύ μυτερά, μόλις αντιληπτά μοτίβα που το σύστημα απεικόνισης έχει μάθει να συσχετίζεται έντονα με συγκεκριμένα αντικείμενα. Με άλλα λόγια, το μηχάνημα δεν συντρίβεται με τη θέα ενός gibbon όπου βλέπουμε ένα panda. Στην πραγματικότητα, βλέπει την τακτική διάταξη των εικονοστοιχείων, ανεπαίσθητη στον άνθρωπο, η οποία εμφανίζεται πολύ πιο συχνά σε εικόνες με gibbons παρά σε εικόνες με pandas κατά τη διάρκεια της εκπαίδευσης.

Οι επιστήμονες έχουν επιδείξει αυτό το πείραμα: δημιούργησαν ένα σύνολο δεδομένων με εικόνες σκυλιών που τροποποιήθηκαν όλα με τέτοιο τρόπο ώστε ο τυποποιημένος ταξινομητής εικόνων να τα αναγνώριζε εσφαλμένα ως γάτες. Στη συνέχεια, έγραψαν με ετικέτα αυτές τις εικόνες με "γάτες" και τις χρησιμοποίησαν για να εκπαιδεύσουν ένα νέο νευρικό δίκτυο από το μηδέν. Μετά την προπόνηση, έδειξαν νευρικά δίκτυα πραγματικές εικόνες των γατών, και τις ταυτοποίησε σωστά όλοι σαν γάτες.

Οι ερευνητές πρότειναν ότι σε κάθε σετΥπάρχουν δύο τύποι συσχετίσεων στα δεδομένα: μοτίβα που συσχετίζονται με την έννοια των δεδομένων, όπως τα μουστάκια σε στιγμιότυπα με γάτες ή χρώματα γούνας σε στιγμιότυπα με pandas και μοτίβα που υπάρχουν στα δεδομένα εκπαίδευσης, αλλά δεν ισχύουν σε άλλα περιβάλλοντα. Αυτές οι τελευταίες "παραπλανητικές" συσχετίσεις, ας τις ονομάσουμε όπως αυτές χρησιμοποιούνται σε ανταγωνιστικές επιθέσεις. Ένα σύστημα αναγνώρισης, εκπαιδευμένο να αναγνωρίσει «παραπλανητικά» πρότυπα, τα βρίσκει και πιστεύει ότι βλέπει ένα μαϊμού.

Αυτό μας λέει ότι εάν θέλουμε να εξαλείψουμε τον κίνδυνοανταγωνιστική επίθεση, πρέπει να αλλάξουμε τον τρόπο που εκπαιδεύουμε τα μοντέλα μας. Επί του παρόντος, επιτρέπουμε στο νευρωνικό δίκτυο να επιλέξει τους συσχετισμούς που θέλει να χρησιμοποιήσει για τον εντοπισμό αντικειμένων στην εικόνα. Ως αποτέλεσμα, δεν μπορούμε να ελέγξουμε τους συσχετισμούς που βρίσκει, ανεξάρτητα από το αν είναι πραγματικοί ή παραπλανητικοί. Εάν, αντ 'αυτού, θα εκπαιδεύσουμε τα μοντέλα μας για να θυμόμαστε μόνο τα πραγματικά πρότυπα - τα οποία συνδέονται με σημασιολογικά εικονοστοιχεία - θεωρητικά θα ήταν δυνατό να παράγουμε συστήματα βαθιάς μάθησης που δεν θα μπορούσαν να παραπλανηθούν.

Όταν οι επιστήμονες δοκιμάζουν αυτή την ιδέα χρησιμοποιώντας μόνοοι πραγματικοί συσχετισμοί για την κατάρτιση του μοντέλου της, μείωσαν την ευαισθησία της: υπέκυψε σε χειραγώγηση μόνο το 50% των περιπτώσεων, ενώ το μοντέλο που εκπαιδεύτηκε σε πραγματικούς και ψευδείς συσχετισμούς υπέκυψε σε χειραγώγηση σε 95% των περιπτώσεων.

Εάν συνοψίζετε, μπορείτε να υπερασπιστείτε τον εαυτό σας από τις ανταγωνιστικές επιθέσεις. Αλλά χρειαζόμαστε περισσότερη έρευνα για να τις εξαλείψουμε εντελώς.

Αλλά τότε το νευρικό δίκτυο δεν μπορεί να «ξεγελαστεί». Καλό ή κακό; Πείτε μας στο chat μας στο Telegram.