Recherche

Est-ce que les neurones rêvent d’électricité? Le créateur des premiers réseaux de neurones a parlé de leur évolution et de leur avenir

Jeffrey Hinton - l'un des créateurs du conceptdeep learning, lauréat du prix Turing Award 2019 et ingénieur Google. La semaine dernière, lors d’une conférence de développeurs d’E / S, Wired l’a interviewé et a parlé de sa fascination pour le cerveau et de sa capacité à modéliser un ordinateur en fonction de la structure neurale du cerveau. Pendant longtemps, ces idées ont été considérées comme stupides. Conversation intéressante et fascinante sur la conscience, les projets futurs de Hinton et la possibilité d'apprendre aux ordinateurs à rêver.

Qu'adviendra-t-il des réseaux de neurones?

Commençons par le temps où vous avez écritleurs tout premiers articles très influents. Tout le monde a dit: "L'idée est intelligente, mais en fait, nous ne pourrons pas concevoir des ordinateurs de cette manière." Expliquez pourquoi vous avez insisté sur vous-même et pourquoi vous êtes si sûr d'avoir trouvé quelque chose d'important.

Il me semblait que le cerveau ne pouvait plus fonctionnersinon. Il est obligé de travailler en étudiant le pouvoir des connexions. Et si vous voulez que l'appareil fasse quelque chose d'intelligent, vous avez deux options: vous le programmez ou il apprend. Et personne n’a programmé les gens, nous avons donc dû apprendre. Cette voie aurait dû être juste.

Expliquez ce que sont les réseaux de neurones. Expliquez la présentation originale.

Vous prenez un usinage relativement simple.des éléments qui ressemblent beaucoup à des neurones. Ils ont des connexions entrantes, chaque connexion a un poids et ce poids peut changer pendant le processus de formation. Ce qu’un neurone fait, c’est prendre des mesures sur les connexions multipliées par des pondérations, les résumer et décider ensuite d’envoyer des données. Si la somme est suffisamment typée, cela produit une sortie. Si le montant est négatif, il n'envoie rien. C'est tout. Il vous suffit de connecter un nuage de tels neurones avec des poids et de déterminer comment changer ces poids, puis ils feront n'importe quoi. La seule question est de savoir comment vous allez changer le poids.

Quand avez-vous compris qu'il s'agit d'une idée approximative du fonctionnement du cerveau?

Oh, oui, tout était prévu à l'origine. Conçu pour ressembler au cerveau dans le travail.

Donc, à un moment donné de votre carrière, vouscommencé à comprendre comment fonctionne le cerveau. Peut-être que tu avais douze ans, peut-être vingt-cinq. Quand avez-vous décidé d'essayer de modéliser des ordinateurs par type de cerveau?

Oui tout de suite. C'était tout le problème. L'idée était de créer un dispositif d'apprentissage qui apprend comme le cerveau, selon les idées des gens sur la façon dont le cerveau apprend, en modifiant la force des connexions. Et ce n'était pas mon idée, Turing avait la même idée. Bien que Turing ait inventé une grande partie des bases de l'informatique standard, il pensait que le cerveau était un appareil non organisé avec des poids aléatoires et qu'il utilisait une formation de renforcement pour modifier les connexions, afin qu'il puisse tout apprendre. Et il croyait que c'était le meilleur chemin d'accès à l'intelligence.

Et vous avez suivi l’idée de Turing que la meilleure façon de créer une voiture - pour le concevoir comme un cerveau humain. Donc, disent-ils, le cerveau humain fonctionne, alors créons une machine similaire.

Oui, pas seulement Turing le pensait. Beaucoup le pensaient.

Quand est-ce que les temps sombres sont venus? Quand il est arrivé que d’autres personnes qui travaillaient dessus et qui pensaient que l’idée de Turing était juste, ont commencé à reculer et vous avez continué à plier votre ligne?

Il y a toujours eu une poignée de personnes qui ont crumalgré tout, surtout dans le domaine de la psychologie. Mais parmi les informaticiens, je crois, dans les années 90, il s’est avéré que les ensembles de données étaient suffisamment petits et que les ordinateurs n’étaient pas aussi rapides. Et avec de petits ensembles de données, d'autres méthodes, en particulier la machine à vecteurs de support, fonctionnaient un peu mieux. Ils n'étaient pas si gênés par le bruit. Tout cela était donc triste, car dans les années 80, nous avons développé une méthode de propagation arrière [Back propagation, une méthode de propagation d'erreur très importante pour les réseaux de neurones]. Nous pensions qu'il allait tout résoudre. Et ils étaient perplexes qu'il n'ait rien décidé. La question était vraiment à l'échelle, mais nous ne savions pas.

Pourquoi avez-vous pensé que cela ne fonctionnait pas?

Nous pensions que cela ne fonctionnait pas parce que nous avionsil n'y avait pas d'algorithmes tout à fait corrects ni de fonctions cibles tout à fait correctes. Je pensais depuis longtemps que c'était parce que nous avions essayé de faire de la formation sous observation, lorsque vous étiquetiez des données, et que nous devions nous entraîner sans observation, lorsque la formation se déroulait selon des données non étiquetées. Il s'est avéré que la question était pour la plupart sur l'échelle.

C'est intéressant. Il se trouve que le problème était que vos données étaient insuffisantes. Vous pensiez disposer de la bonne quantité de données, mais vous l'avez mal signalée. Il s'avère que vous avez mal identifié le problème?

Je pensais que l'erreur était que nous étionsutiliser des balises. La plupart de vos apprentissages se font sans utiliser de balises, vous essayez simplement de modéliser la structure des données. En fait, je le pense toujours. Je pense que depuis que les ordinateurs deviennent plus rapides, si l'ordinateur est assez rapide, il est préférable de mener une formation sans observation pour tout ensemble de données d'une taille donnée. Et dès que vous aurez terminé l’étude sans observation, vous pourrez étudier avec un plus petit nombre de points.

Donc, dans les années 1990, vous continuez vos recherches,vous êtes dans les milieux universitaires, vous publiez toujours, mais vous ne résolvez pas de gros problèmes. Avez-vous déjà eu un moment où vous disiez: «Vous savez, c’en est assez. Essayer de faire autre chose? Ou vous êtes-vous simplement dit que vous allez continuer à vous engager dans un apprentissage en profondeur [c’est-à-dire le concept profond apprentissage, apprentissage en profondeur des réseaux de neurones; lisez plus ici.]

Oui Quelque chose comme ça devrait marcher. Je veux dire, les composés dans le cerveau apprennent d'une manière ou d'une autre, il faut juste savoir exactement comment. Et, peut-être, il y a beaucoup de façons différentes de renforcer les liens dans le processus d'apprentissage; le cerveau en utilise un. Il peut y avoir d'autres moyens. Mais vous avez certainement besoin de quelque chose qui puisse renforcer ces composés pendant l'entraînement. Je n'en ai jamais douté.

Tu n'en as jamais douté. Quand avez-vous eu l'impression que cela fonctionne?

L’une des plus grandes déceptions des années 80 a étéque si nous faisions des réseaux avec beaucoup de couches cachées, nous ne pourrions pas les former. Ce n'est pas tout à fait vrai, car vous pouvez former des processus relativement simples comme l'écriture manuscrite. Mais nous n'avons pas su former la majorité des réseaux de neurones profonds. Et quelque part en 2005, j'ai trouvé un moyen de former des réseaux profonds sans observation. Vous entrez des données, par exemple des pixels, et vous entraînez plusieurs détecteurs de détail qui expliquent simplement pourquoi les pixels sont tels quels. Ensuite, vous transmettez les données à ces détecteurs de pièces et entraînez un autre ensemble de détecteurs de pièces, afin que nous puissions expliquer pourquoi des détecteurs de pièces spécifiques ont des corrélations spécifiques. Vous continuez à former couche par couche. Mais la chose la plus intéressante était que vous pouviez décomposer mathématiquement et prouver que chaque fois que vous enseignez une nouvelle couche, vous n'amélioriez pas nécessairement le modèle de données, mais que vous deviez gérer la qualité de votre modèle. Et cette gamme s'est améliorée avec chaque couche ajoutée.

Qu'entendez-vous par la qualité de votre modèle?

Une fois que vous avez obtenu le modèle, vous pouvez demanderquestion: "À quel point ce modèle trouve-t-il ces données?" Vous lui montrez les données et posez la question: "Trouvez-vous tout cela comme vous le souhaitiez ou est-ce inhabituel?" Et cela pourrait être mesuré. Et je voulais un modèle, un bon modèle qui examine les données et dit: «Oui, oui. Je le savais Ce n'est pas surprenant. " Il est toujours très difficile de calculer avec précision en quoi le modèle trouvera les données inhabituelles. Mais vous pouvez en calculer la portée. On peut dire que le modèle trouvera ces données moins inhabituelles que cela. Et il pourrait être démontré que, lorsque de nouvelles couches sont ajoutées aux détecteurs de détails, un modèle est formé et, à chaque couche ajoutée, lorsqu'il trouve des données, il est plus difficile de comprendre à quel point il est inhabituel de trouver des données.

Il s’avère qu’en 2005 environ vous avez réalisécette avancée mathématique. Quand as-tu commencé à avoir les bonnes réponses? Avec quelles données avez-vous travaillé? Vous avez la première avancée avec les données de parole, non?

Ce n'étaient que des chiffres manuscrits. Très simple Et à peu près au même moment, le développement de GPU (processeurs graphiques) a commencé. Et les personnes impliquées dans les réseaux de neurones ont commencé à utiliser le GPU en 2007. J'ai eu un très bon étudiant qui a commencé à utiliser des GPU pour rechercher des routes sur des photos aériennes. Il a écrit le code, qui a ensuite été adopté par d'autres étudiants qui utilisent le GPU pour reconnaître des phonèmes dans la parole. Ils ont utilisé cette idée d'apprentissage préalable. Et une fois le pré-entraînement terminé, ils ont simplement placé les étiquettes sur le dessus et utilisé l'inverse. Il s'est avéré que vous pouvez créer un réseau très profond qui a déjà été formé de cette manière. Et puis la propagation en arrière pourrait être appliquée, et cela a vraiment fonctionné. En reconnaissance vocale, cela fonctionnait parfaitement. Au début, cependant, ce n'était pas beaucoup mieux.

Était-ce mieux que la reconnaissance vocale disponible dans le commerce? Contourné le meilleur travail scientifique sur la reconnaissance de la parole?

Dans un ensemble de données relativement petit appelé TIMIT, il était légèrement meilleur que le meilleur travail académique. IBM a également beaucoup travaillé.

Très vite, les gens ont compris que tout cela - depuisil contourne les modèles standard développés depuis 30 ans - il fonctionnera bien si vous développez un peu. Mes diplômés sont entrés dans Microsoft, IBM et Google, et Google a très rapidement créé une reconnaissance vocale fonctionnelle. En 2012, ce travail, réalisé en 2009, passait sur Android. Android est devenu soudainement beaucoup mieux à reconnaître la parole.

Parlez-moi du moment où vous, qui tenez ces idées depuis 40 ans et que vous publiez sur ce sujet depuis 20 ans, contournez subitement vos collègues. À quoi ressemble ce sentiment?

Eh bien, à cette époque, je ne gardais ces idées que 30 ans!

Droit, droit!

Il y avait un sentiment merveilleux que tout cela était finalement devenu un vrai problème

Vous souvenez-vous de la première fois où vous avez reçu des données indiquant cela?

Non

Très bien Vous comprenez donc que cela fonctionne avec la reconnaissance vocale. Quand avez-vous commencé à appliquer les réseaux de neurones à d'autres problèmes?

Au début, nous avons commencé à les appliquer à toutes sortes ded'autres problèmes. George Dahl, avec qui nous avons initialement travaillé sur la reconnaissance de la parole, les a utilisés pour prédire si une molécule peut se connecter à quelque chose et devenir un bon médicament. Et il y avait un concours. Il a simplement appliqué notre technologie de reconnaissance vocale standard pour prédire l'activité de la drogue et a remporté ce concours. C'était un signe que nous faisons quelque chose de très universel. Puis un étudiant est apparu et a déclaré: «Vous savez, Jeff, cette chose fonctionnera avec la reconnaissance d’image, et Fey-Fey Lee a créé un ensemble de données adapté à cette situation. Il y a un concours public, faisons quelque chose.

Nous avons obtenu des résultats bien supérieurs à la vision par ordinateur standard. C'était en 2012.

C’est-à-dire que dans ces trois domaines vous avez réussi: la modélisation des produits chimiques, la parole, la voix. Où avez-vous échoué?

Comprenez-vous que les échecs sont temporaires?

Eh bien, qu'est-ce qui définit la zone où tout fonctionne?le plus rapide et les domaines où il faut plus de temps? Il semble que le traitement visuel, la reconnaissance de la parole et quelque chose de fondamental que nous faisons avec la perception sensorielle sont considérés comme les premiers obstacles à surmonter, n'est-ce pas?

Et oui et non, car il y a d'autres chosesce que nous faisons bien est la même motilité. Nous maîtrisons très bien la motricité. Notre cerveau est définitivement adapté à cela. Et ce n’est que maintenant que les réseaux de neurones commencent à concurrencer les meilleures autres technologies. Ils vont gagner à la fin, mais maintenant ils commencent juste à gagner.

Je pense penser, penser abstraitement - les dernières choses que nous apprenons. Je pense qu'ils feront partie des dernières choses que ces réseaux de neurones apprennent à faire.

Et vous continuez donc à dire que les réseaux de neurones finiront par gagner partout.

Eh bien, nous sommes des réseaux de neurones. Tout ce que nous pouvons, ils peuvent aussi.

C'est vrai, mais le cerveau humain est loin de l'ordinateur le plus efficace jamais créé.

Certainement pas.

Certainement pas mon cerveau humain! Existe-t-il un moyen de modéliser des machines beaucoup plus efficaces que le cerveau humain?

Du point de vue de la philosophie, je n'ai aucune objectioncontre l’idée qu’il pourrait y avoir une manière complètement différente de tout faire. Peut-être que si vous commencez avec la logique, essayez d'automatiser la logique, proposez une preuve bizarre de théorèmes, discutez, puis décidez que vous arrivez à la perception visuelle par le raisonnement, il se peut que cette approche gagne. Mais pas encore. Je n'ai aucune objection philosophique à une telle victoire. Nous savons juste que le cerveau en est capable.

Mais il y a des choses que notre cerveau n'est pas capable de bien faire. Est-ce que cela signifie que les réseaux de neurones ne pourront pas non plus bien les faire?

C'est possible, oui.

Et il existe un problème distinct, à savoir que nous ne comprenons pas bien le fonctionnement des réseaux de neurones, n'est-ce pas?

Oui, nous ne comprenons vraiment pas comment ils fonctionnent.

Nous ne comprenons pas comment fonctionnent les réseaux de neuronesapproche descendante. C'est l'élément principal du travail des réseaux de neurones, que nous ne comprenons pas. Expliquez-le, puis laissez-moi poser la question suivante: si nous savons comment cela fonctionne, comment cela fonctionne-t-il?

Si vous regardez les systèmes modernesvision par ordinateur, la plupart d’entre eux sont principalement dirigés vers l’avant; ils n'utilisent pas de connexions de retour. Et il y a encore une chose dans les systèmes de vision par ordinateur modernes qui sont très susceptibles aux erreurs de la concurrence. Vous pouvez légèrement changer quelques pixels, et ce qui était une image de panda et qui ressemble toujours exactement à un panda va soudainement devenir une autruche dans la compréhension du réseau de neurones. Évidemment, la manière de remplacer les pixels est conçue pour tromper le réseau de neurones, la forçant à penser à l'autruche. Mais le fait est que pour vous c'est toujours un panda.

Au début, nous pensions que tout fonctionnait.bien Mais alors, face au fait qu’ils regardent un panda et sont convaincus que c’est une autruche, nous sommes inquiets. Et je pense qu’une partie du problème est qu’ils ne cherchent pas à reconstruire à partir de représentations de haut niveau. Ils essaient d'apprendre de manière isolée, lorsque seules les couches de détecteurs de détail sont formées, et que l'objectif principal est de modifier les poids afin qu'ils puissent mieux chercher la bonne réponse. Nous avons récemment découvert à Toronto, ou Nick Frost a découvert que, si vous ajoutez une reconstruction, la résistance à l'erreur contradictoire augmentera. Je pense que dans la vision humaine pour la reconstruction est utilisé. Et puisque nous apprenons beaucoup en procédant à une reconstruction, nous sommes beaucoup plus résistants aux attaques concurrentielles.

Vous pensez que la communication descendante dans le réseau de neurones vous permet de vérifier comment quelque chose est reconstruit. Vous vérifiez et assurez-vous que c'est un panda, pas une autruche.

Je pense que c'est important, oui.

Mais les scientifiques qui étudient le cerveau ne sont pas tout à fait d’accord?

Les scientifiques du cerveau ne soutiennent pas que si vous avez deuxzones du cortex sur le chemin de la perception, il y aura toujours des connexions inverses. Ils discutent avec ce que c'est pour. Il peut être nécessaire d’attention, de formation ou de reconstruction. Ou pour les trois.

Et par conséquent, nous ne savons pas ce que c'est que le retour Vous construisez vos nouveaux réseaux de neurones en partant de l’hypothèse que ... non, pas même. Vous construisez des retours, car ils sont nécessaires à la reconstruction de vos réseaux de neurones, même si vous ne comprenez même pas comment fonctionne le cerveau.

Oui

N'est-ce pas un truc? Eh bien, c'est, si vous essayez de faire quelque chose comme un cerveau, mais ne savez pas ce que le cerveau fait?

Pas vraiment. Je ne fais pas de neurosciences computationnelles. Je n'essaie pas de créer un modèle du cerveau. Je regarde le cerveau et dis: "Cela fonctionne, et si nous voulons faire quelque chose d'autre qui fonctionne, nous devons le regarder et nous en inspirer." Nous sommes inspirés par les neurones plutôt que par la construction d'un modèle neuronal. Ainsi, l'ensemble du modèle, les neurones que nous utilisons, est inspiré par le fait que les neurones ont de nombreuses connexions et changent de poids.

C'est intéressant. Si j'étais informaticien et travaillais sur des réseaux de neurones et que je voulais éviter Jeff Hinton, l'une des options serait de construire une communication en liaison descendante et de la baser sur d'autres modèles de sciences du cerveau. Se baser sur la formation, pas sur la reconstruction.

S'il y avait de meilleurs modèles, vous auriez gagné. Oui

C'est très très intéressant. Parlons d'un sujet plus général. Ainsi, les réseaux de neurones peuvent résoudre tous les problèmes possibles. Existe-t-il des énigmes du cerveau humain qui ne peuvent ou ne veulent pas couvrir les réseaux de neurones? Par exemple, les émotions.

Non

Alors, l'amour peut-il être reconstruit par un réseau de neurones? La conscience peut être reconstruite?

Absolument. Une fois que vous avez compris ce que ces choses signifient. Nous sommes des réseaux de neurones, non? La conscience est un sujet particulièrement intéressant pour moi. Mais ... les gens ne savent pas vraiment ce qu'ils entendent par ce mot. Il y a beaucoup de définitions différentes. Et je pense que c'est un terme plutôt scientifique. Donc, si il y a 100 ans, vous demandiez aux gens: qu'est-ce que la vie? Ils répondaient: «Les choses vivantes ont une force vitale et quand elles meurent, la force vitale les quitte. C'est la différence entre les vivants et les morts, que vous ayez une force vitale ou non. " Maintenant que nous n'avons plus de vitalité, nous pensons que ce concept est apparu avant la science. Et dès que vous commencez à comprendre un peu la biochimie et la biologie moléculaire, vous n’avez plus besoin de la vitalité, vous comprendrez comment cela fonctionne réellement. Et la même chose, je pense, se produira avec la conscience. Je pense que la conscience est une tentative d'expliquer les phénomènes mentaux avec l'utilisation d'une entité. Et cette entité, ce n'est pas nécessaire. Dès que vous pouvez l'expliquer, vous pouvez expliquer comment nous faisons tout ce qui rend les êtres conscients, expliquer les différentes significations de la conscience, sans attirer aucune entité particulière.

Il s’avère qu’il n’ya pas d’émotions qui ne peuvent pascréerait? Aucune pensée pour créer? Il n'y a rien que l'esprit humain puisse faire, il serait théoriquement impossible de recréer un réseau neuronal pleinement fonctionnel, une fois que nous aurons réellement compris le fonctionnement du cerveau?

John Lennon a chanté quelque chose de similaire dans l'une de ses chansons.

Êtes-vous sûr à 100%?

Non, je suis bayésien, je suis donc sûr à 99,9%.

Eh bien, quel est donc ce 0,01%?

Eh bien, nous pourrions, par exemple, tous faire partie d’une grande simulation.

Juste. Alors, que apprenons-nous sur le cerveau grâce à notre travail sur ordinateur?

Eh bien, je pense de ce que nous avons appris pourAu cours des 10 dernières années, il est intéressant de noter que si vous prenez un système avec des milliards de paramètres et une fonction cible (par exemple, pour combler un vide dans une ligne de mots), cela fonctionnera mieux que prévu. Cela fonctionnera beaucoup mieux que vous ne le pensez. Vous pourriez penser, et de nombreuses personnes dans le domaine de la recherche traditionnelle sur l'IA penseraient que vous pouvez prendre un système avec un milliard de paramètres, l'exécuter à des valeurs aléatoires, mesurer le gradient de la fonction objectif puis le corriger afin d'améliorer cette fonction. Vous pourriez penser qu'un algorithme sans espoir va inévitablement rester bloqué. Mais non, il s’avère que c’est un très bon algorithme. Et plus l'échelle est grande, mieux cela fonctionne. Et cette découverte était essentiellement empirique. Il y avait bien sûr une théorie derrière tout cela, mais la découverte était empirique. Et maintenant, depuis que nous avons découvert cela, il semble plus probable que le cerveau calcule le gradient d'une certaine fonction objective et mette à jour les poids et la force de la connexion des synapses afin de suivre ce gradient. Nous devons seulement savoir quelle est la fonction de cet objectif et comment il se dégrade.

Mais nous n'avons pas compris cela sur l'exemple du cerveau? Vous n'avez pas compris les poids de mise à jour?

C'était une théorie. Il y a longtemps, les gens pensaient que c'était possible. Mais à l'arrière-plan, il y avait toujours des informaticiens qui disaient: «Oui, mais l'idée que tout est aléatoire et que l'apprentissage est dû à la descente de gradient ne fonctionnera pas avec un milliard de paramètres, vous devrez connecter beaucoup de connaissances». Maintenant, nous savons que ce n'est pas le cas. Vous pouvez simplement entrer des paramètres aléatoires et tout apprendre.

Plongeons un peu. À mesure que nous en apprendrons de plus en plus, nous devrons continuer à en apprendre davantage sur le fonctionnement du cerveau humain, car nous effectuerons d’énormes tests de modèles basés sur nos idées sur les fonctions du cerveau. Dès que nous comprendrons mieux cela, y aura-t-il un moment où nous reconstruirons essentiellement notre cerveau pour devenir des machines beaucoup plus efficaces?

Si nous comprenons vraiment ce qui se passe, nousnous pouvons améliorer certaines choses comme l'éducation. Et je pense que nous allons nous améliorer. Il serait très étrange de comprendre enfin ce qui se passe dans votre cerveau, comment il apprend, et de ne pas vous adapter pour mieux étudier.

Comment pensez-vous, comment, dans quelques années, nous utilisons ce que nous avons appris sur le cerveau et sur le travail d'apprentissage en profondeur pour changer l'éducation? Comment changerais-tu de classe?

Je ne suis pas sûr que dans quelques années nous apprendrions beaucoup. Je pense que changer l'éducation va prendre plus de temps. Mais si vous en parlez, les assistants [numériques] deviennent plutôt intelligents. Et lorsque les assistants peuvent comprendre les conversations, ils peuvent parler aux enfants et leur apprendre.

Et théoriquement, si nous comprenons mieux le cerveau, nous pourrons programmer des aides pour qu'ils puissent mieux parler avec les enfants, à partir de ce qu'ils ont déjà appris.

Oui, mais je n'y ai pas trop pensé. Je fais un autre. Mais tout semble assez semblable à la vérité.

Pouvons-nous comprendre comment fonctionnent les rêves?

Oui, je suis très intéressé par les rêves. Je suis tellement intéressé que j'ai au moins quatre théories différentes du rêve.

Parlez-leur - des premier, deuxième, troisième, quatrième.

Il était une fois il y avait de telles choses appelées réseauHopfield et ils ont étudié la mémoire en tant qu’attracteurs locaux. Hopfield a découvert que si vous essayez de mettre trop de souvenirs en mémoire, ils seront confus. Ils prendront deux attracteurs locaux et les combineront en un attracteur situé à mi-chemin entre eux.

Puis sont venus Francis Creek et Graham Mitchison etils ont dit que nous pouvons nous débarrasser de ces faux bas en désapprenant (c'est-à-dire en oubliant ce que nous avons appris). Nous désactivons la saisie de données, transférons le réseau de neurones dans un état aléatoire, lui permettons de se calmer, disons que c'est mauvais, modifions les connexions afin de ne pas tomber dans cet état, et ainsi vous pouvez rendre le réseau stocker plus de mémoires.

Puis nous sommes venus avec Terry Sejnovski et avons dit: "Écoutez, si nous avons non seulement des neurones qui stockent des souvenirs, mais également un groupe d'autres neurones, pouvons-nous trouver un algorithme qui utilisera tous ces neurones pour aider à restaurer des souvenirs?" En conséquence, nous avons créé l’algorithme d’apprentissage automatique Boltzmann. Et l'algorithme d'apprentissage automatique de Boltzmann avait une propriété extrêmement intéressante: je montre les données, et il parcourt en quelque sorte le reste des unités jusqu'à ce qu'il atteigne un état très heureux, puis augmente la force de toutes les connexions, en se basant sur le fait que deux unités sont actives en même temps.

Vous devriez également avoir une phase dans laquelle vousdésactiver l'entrée, permettre à l'algorithme de "se retourner" et de le traduire dans un état dans lequel il est satisfait, afin qu'il fantasme, et dès qu'il a un fantasme, vous dites: "Prenez toutes les paires de neurones actifs et réduisez la force des connexions."

Je vous explique l'algorithme en tant que procédure. Mais en réalité, cet algorithme est un produit des mathématiques et de la question: «Comment faut-il changer ces chaînes de connexions pour que ce réseau de neurones contenant toutes ces unités cachées ne trouve aucune donnée?». Et il doit y avoir une autre phase, que nous appelons la phase négative, lorsque le réseau fonctionne sans saisie de données et apprend, quel que soit l'état dans lequel vous le mettez.

Nous voyons des rêves pendant plusieurs heures chaque nuit. Et si vous vous réveillez soudainement, vous pouvez dire que vous venez de rêver, car le rêve est stocké dans une mémoire à court terme. Nous savons que nous voyons des rêves pendant de nombreuses heures, mais le matin, après le réveil, nous ne pouvons que nous souvenir du dernier rêve, et d’autres ne se souviennent pas qu’il a eu beaucoup de succès, car il serait erroné de les prendre pour réalité. Alors pourquoi ne nous souvenons-nous pas de nos rêves? Selon Crick, c'est le sens des rêves: désapprendre ces choses. Vous apprenez en quelque sorte le contraire.

Terry Seinowski et moi avons montré qu'il s'agissait en fait d'une procédure d'apprentissage présentant la probabilité la plus élevée pour les machines Boltzmann. C'est la première théorie des rêves.

Je veux passer à vos autres théories. Mais posez la question suivante: avez-vous réussi à former l’un de vos algorithmes d’apprentissage en profondeur pour rêver?

Certains des premiers algorithmes qui pourraientPour apprendre à travailler avec des unités cachées, il y avait des machines Boltzmann. Ils étaient extrêmement inefficaces. Mais plus tard, j'ai trouvé un moyen de travailler avec des approximations qui se sont avérées efficaces. Et cela a en fait déclenché la reprise du travail avec un apprentissage en profondeur. Ce sont des choses qui ont appris une couche de détecteurs de fonctions à la fois. Et c'était la forme efficace de la machine restrictive de Boltzmann. Et donc elle était engagée dans ce genre de formation inversée. Mais au lieu d'aller se coucher, elle pourrait simplement fantasmer un peu après chaque balise avec les données.

Eh bien, cela signifie que les androïdes rêvent réellement d’électroshots. Passons aux théories deux, trois et quatre.

La théorie deux a été nommée algorithme de réveil en veille[algorithme réveil-sommeil]. Vous devez former un modèle génératif. Et vous avez l’idée de créer un modèle capable de générer des données, de disposer de couches de détecteurs de caractéristiques et d’activer les couches supérieure et inférieure, et ainsi de suite, jusqu’à l’activation des pixels, ce qui crée l’image. Mais vous voudriez lui en apprendre un autre. Vous voudriez qu'elle reconnaisse les données.

Et si vous devez faire un algorithme avec deuxles phases. Dans la phase de réveil, les données arrivent, il essaie de les reconnaître et, au lieu d'étudier les connexions qu'il utilise pour la reconnaissance, il étudie les connexions génératives. Les données arrivent, j'active les unités cachées. Et puis j'essaie d'apprendre à ces unités cachées à récupérer ces données. Il apprend à reconstruire dans chaque couche. Mais la question est de savoir comment étudier les connexions directes? Par conséquent, l'idée est que si vous connaissiez des connexions directes, vous pourriez apprendre les connexions inverses, car vous pourriez apprendre à reconstruire.

Maintenant, il s'avère également que si vous utilisezconnexions inverses, vous pouvez apprendre et diriger les connexions, car vous pouvez simplement commencer par le haut et générer un peu de données. Et puisque vous générez des données, vous connaissez les états de toutes les couches cachées et vous pouvez étudier les connexions directes pour restaurer ces états. Et c'est ce qui se passe: si vous commencez avec des connexions aléatoires et essayez alternativement d'utiliser les deux phases, tout se passera bien. Pour bien fonctionner, vous devrez essayer différentes options, mais cela fonctionnera.

Bien, qu'en est-il des deux autres théories? Il ne nous reste que huit minutes, je pense, je n'aurai pas le temps de poser toutes les questions.

Donnez-moi une heure de plus et je vous parlerai des deux autres.

Parlons de ce qui vient ensuite. Où vont tes études? Quels problèmes essayez-vous de résoudre maintenant?

En fin de compte, travailler sur quelque chosequel travail n'est pas encore fini. Je pense pouvoir travailler sur quelque chose que je ne finirai jamais, appelé «capsules», une théorie sur la manière dont la perception visuelle est réalisée à l'aide de la reconstruction et sur la manière dont l'information est envoyée aux bons endroits. Les deux principaux facteurs de motivation étaient que, dans les réseaux de neurones standard, les informations et l'activité de la couche vont automatiquement quelque part et que vous ne prenez pas de décision quant à l'endroit où les envoyer. L'idée des capsules était de décider à quel endroit envoyer les informations.

Maintenant, quand j'ai commencé à travailler sur les capsules, des personnes très intelligentes de Google ont inventé les transformateurs qui font de même. Ils décident où envoyer les informations, et c'est une grande victoire.

L'année prochaine, nous serons de retour pour parler des théories des rêves numéro trois et numéro quatre.

Inscrivez-vous à notre chat dans Telegram à ne pas manquer.

L'article utilise des illustrations de Maria Menshikova.