istraživanje

Jesu li neuroni sanjali o elektrovaterima? Tvorac prvih neuronskih mreža govorio je o njihovoj evoluciji i budućnosti

Jeffrey Hinton - jedan od tvoraca konceptaduboko učenje, dobitnik nagrade Turingove nagrade 2019 i Googleov inženjer. Prošlog tjedna, tijekom I / O developer konferencije, Wired ga je intervjuirao i razgovarao o njegovoj fascinaciji mozga i sposobnosti modeliranja računala temeljenog na neuronskoj strukturi mozga. Dugo su se te ideje smatrale glupim. Zanimljiv i fascinantan razgovor o svijesti, Hintonovim budućim planovima i tome mogu li se poučiti računalima da sanjaju.

Što će se dogoditi s neuronskim mrežama?

Počnimo s vremenima kada si napisaonjihovi vrlo prvi, vrlo utjecajni članci. Svi su rekli: "Ideja je pametna, ali zapravo nećemo moći dizajnirati računala na ovaj način." Objasnite zašto ste inzistirali na sebi i zašto ste bili tako sigurni da ste pronašli nešto važno.

Činilo mi se da mozak nekako ne može raditiinače. On je dužan raditi, proučavajući moć veza. A ako želite napraviti uređaj učiniti nešto pametno, imate dvije mogućnosti: ili ga programirati ili ga uči. I nitko nije programirao ljude, pa smo morali učiti. Taj bi put trebao biti ispravan.

Objasnite što su neuronske mreže. Objasnite izvornu prezentaciju.

Uzimate relativno jednostavnu obradu.elementi koji vrlo udaljeno podsjećaju na neurone. Imaju ulazne veze, svaka veza ima težinu, a ta se težina može promijeniti tijekom procesa obuke. Ono što neuron radi je da poduzme radnje na vezama pomnoženim s težinama, sumira ih i zatim odlučuje hoće li poslati podatke. Ako je zbroj dovoljno velik, pravi izlaz. Ako je iznos negativan, on ništa ne šalje. To je sve. Vi samo trebate spojiti oblak takvih neurona s utezima i shvatiti kako promijeniti te težine, a onda će učiniti sve što žele. Pitanje je samo kako ćete promijeniti težinu.

Kada ste shvatili da je to gruba ideja o tome kako funkcionira mozak?

Oh, da, sve je izvorno bilo namijenjeno. Dizajniran da podsjeća na mozak na poslu.

Dakle, u određenom trenutku vaše karijere, vipočeo razumjeti kako mozak funkcionira. Možda ste imali dvanaest, možda dvadeset pet. Kada ste se odlučili modelirati računala prema tipu mozga?

Da, odmah. To je bila cijela stvar. Cijela ideja bila je stvoriti uređaj za učenje koji uči poput mozga, prema idejama ljudi o tome kako mozak uči, mijenjajući snagu veza. I to nije bila moja ideja, Turing je imao istu ideju. Iako je Turing izumio ogroman dio osnove standardne informatike, vjerovao je da je mozak neorganiziran uređaj sa slučajnim utezima i da je koristio trening pojačanja kako bi promijenio veze, tako da je mogao išta naučiti. I vjerovao je da je to najbolji put do inteligencije.

I slijedili ste ideju Turinga da je najbolji način stvaranja automobila - dizajnirati ga kao ljudski mozak. Dakle, kažu, ljudski mozak radi, pa kreiramo sličan stroj.

Da, ne samo Turing je tako mislio. Mnogi su tako mislili.

Kada su došla mračna vremena? Kad se dogodilo da su drugi ljudi koji su radili na njemu i mislili da je Turingova ideja bila ispravna, počela povlačiti, a vi ste nastavili savijati svoju liniju?

Uvijek je bilo nekoliko ljudi koji su vjerovaliusprkos svemu, osobito u području psihologije. No, među računalnim znanstvenicima, vjerujem, 90-ih se ispostavilo da su skupovi podataka bili dovoljno mali, a računala nisu bila tako brza. A s malim skupovima podataka, druge metode, posebno stroj za podršku vektora, radio je malo bolje. Nisu se tako zbunili zbog buke. Tako je sve to bilo tužno, jer smo 80-ih godina razvili metodu širenja unatrag [nazad propagacija, metoda povratne pogreške, vrlo važna za neuronske mreže]. Mislili smo da će sve riješiti. I bili su zbunjeni što nije odlučio ništa. Pitanje je stvarno bilo u mjerilu, ali onda nismo znali.

Zašto ste mislili da ne radi?

Mislili smo da to ne radi jer smo imalinisu postojali sasvim ispravni algoritmi i ne baš ispravne ciljne funkcije. Dugo sam razmišljao da je to zato što smo pokušali provesti obuku pod promatranjem, kad označavate podatke, i morali smo se uključiti u trening bez promatranja, kada se trening odvija prema neoznačenim podacima. Pokazalo se da je to pitanje najvećim dijelom na ljestvici.

Ovo je zanimljivo. Ispostavilo se da je problem bio u tome što niste imali dovoljno podataka. Mislili ste da imate pravu količinu podataka, ali ste je pogrešno označili. Ispada, upravo ste pogrešno identificirali problem?

Mislio sam da je greška u tome što jesmokoristite oznake. Većina vašeg učenja događa se bez upotrebe bilo kakvih oznaka, samo pokušavate modelirati strukturu podataka. Zapravo i dalje mislim. Mislim da, budući da računala postaju brža, ako je računalo dovoljno brzo, bolje je provesti trening bez promatranja za bilo koji skup podataka određene veličine. Čim završite studij bez promatranja, moći ćete učiti s manjim brojem ocjena.

Dakle, u 1990-im godinama nastavljate istraživanje,vi ste u akademskim krugovima, još uvijek objavljujete, ali ne rješavate velike probleme. Jeste li ikada imali trenutak kada ste rekli: “Znate, to je dosta. Pokušavaš učiniti nešto drugo? " Ili si jednostavno rekao sebi da ćeš nastaviti sudjelovati u dubokom učenju [to jest, konceptu duboko učenje, neuronske mreže dubinskog učenja; pročitajte više ovdje.]

Da. Nešto poput ovoga bi trebalo raditi. Mislim, spojevi u mozgu se nekako uče, samo trebamo shvatiti kako. I možda postoji mnogo različitih načina za jačanje veza u procesu učenja; mozak koristi jedan od njih. Možda postoje drugi načini. Ali svakako trebate nešto što može ojačati ove spojeve tijekom treninga. Nikad nisam sumnjao u to.

Nikad nisi sumnjao u to. Kada se osjećao kao da radi?

Jedno od najvećih razočaranja osamdesetih bilo jeda ako bismo napravili mreže s mnogo skrivenih slojeva, ne bismo ih mogli trenirati. To nije posve točno, jer možete trenirati relativno jednostavne procese kao što je rukopis. Ali nismo znali kako trenirati većinu dubinskih neuronskih mreža. I negdje u 2005, došao sam do načina da treniram duboke mreže bez motrenja. Unosite podatke, recimo, piksele, i trenirate nekoliko detalja detektora koji jednostavno objašnjavaju zašto su pikseli bili onakvi kakvi su bili. Tada ćete podatke prenijeti na ove dijelove detektora i trenirati drugi skup detektora dijelova, tako da možemo objasniti zašto određeni detektori dijelova imaju specifične korelacije. Nastavite trenirati sloj po sloj. Ali najzanimljivije je to što ste se matematički mogli dekomponirati i dokazati da svaki put kada podučavate novi sloj, ne morate nužno poboljšati model podataka, ali ćete morati nositi se s rasponom koliko je dobar model. I ovaj se raspon poboljšao sa svakim dodanim slojem.

Na što mislite kad je vaš model dobar?

Kad dobijete model, možete ga pitatipitanje: "Koliko je neobično ovaj model pronaći te podatke?" Pokažete joj podatke i postavite pitanje: "Nalazite li sve ovo kao što ste namjeravali ili je neobično?" I to se može mjeriti. I htio sam dobiti model, dobar model koji gleda na podatke i kaže: “Da, da. Znao sam to. To ne iznenađuje. " Uvijek je vrlo teško točno izračunati koliko će neobični model pronaći podatke. Ali možete izračunati raspon ovoga. Može se reći da će model ove podatke smatrati manje neobičnim od ovoga. Može se pokazati da se novim slojevima dodaju detaljni detektori, formira se model, a sa svakim dodanim slojem, kada nađe podatke, raspon razumijevanja kako neuobičajeno pronalazi podatke postaje sve bolji.

Ispostavilo se da ste otprilike 2005. godine obaviliovaj pomak u matematici. Kada ste počeli dobivati ​​prave odgovore? S kojim ste podacima radili? Dobio si prvi proboj s govornim podacima, zar ne?

To su samo rukopisni brojevi. Vrlo jednostavno. Otprilike u isto vrijeme počeo je i razvoj GPU-a (grafičkih procesora). Ljudi koji su bili uključeni u neuronske mreže počeli su koristiti GPU 2007. godine. Imao sam vrlo dobrog studenta koji je počeo koristiti GPU-ove za traženje cesta na zračnim fotografijama. Napisao je kod koji su usvojili drugi studenti koji koriste GPU kako bi prepoznali foneme u govoru. Koristili su tu ideju prethodnog učenja. A kad je završio pred-trening, samo su stavili oznake na vrh i koristili obrnuti namještaj. Pokazalo se da možete stvoriti vrlo duboku mrežu koja je prethodno bila trenirana na ovaj način. A onda bi se moglo primijeniti propagiranje unatrag, i to je zapravo uspjelo. U prepoznavanju govora to je savršeno funkcioniralo. U početku, međutim, nije bilo mnogo bolje.

Je li to bilo bolje od komercijalno dostupnog prepoznavanja govora? Zaobišli najbolji znanstveni rad na prepoznavanju govora?

U relativno malom skupu podataka koji se zove TIMIT, bio je nešto bolji od najboljeg akademskog rada. IBM je također učinio mnogo posla.

Vrlo brzo, ljudi su shvatili da sve to - odona zaobilazi standardne modele koji su razvijeni 30 godina - dobro će funkcionirati ako se malo razvije. Moji diplomanti su se upisali u Microsoft, IBM i Google, a Google je vrlo brzo stvorio radni prepoznavač govora. Do 2012, ovaj posao, koji je učinio u 2009, dobio na Android. Android je odjednom postao puno bolji u prepoznavanju govora.

Recite mi o trenutku kada vi, koji već 40 godina čuvate ove ideje i objavljujete na tu temu 20 godina, odjednom zaobiđete svoje kolege. Kako izgleda taj osjećaj?

Pa, tada sam zadržao te ideje samo 30 godina!

Dobro, dobro!

Postojao je divan osjećaj da se sve to konačno pretvorilo u pravi problem.

Sjećate li se kada ste prvi put primili podatke koji ukazuju na to?

Ne.

U redu. Dakle, razumijete da radi s prepoznavanjem govora. Kada ste počeli primjenjivati ​​neuronske mreže na druge probleme?

Isprva smo ih počeli primjenjivati ​​na sve vrstedrugih problema. George Dahl, s kojim smo u početku radili na prepoznavanju govora, primijenili su ih kako bi predvidjeli može li se molekula povezati s nečim i postati dobar lijek. I bilo je natjecanja. Jednostavno je primijenio našu standardnu ​​tehnologiju prepoznavanja govora kako bi predvidio aktivnost lijekova i osvojio ovo natjecanje. Bio je to znak da radimo nešto vrlo univerzalno. Tada se pojavio student koji je rekao: “Znaš, Jeff, ova stvar će raditi s prepoznavanjem slika, a Fey-Fey Lee je stvorila prikladan skup podataka za to. Postoji javni natječaj, učinimo nešto.

Dobili smo rezultate koji su bili daleko superiorniji od standardnog računalnog vida. Bilo je 2012.

To jest, u ova tri područja ste uspjeli: modeliranje kemikalija, govor, glas. Gdje nisi uspio?

Razumijete li da su neuspjesi privremeni?

Pa, što određuje područje u kojem sve radi?najbrže i područja gdje je potrebno više vremena? Čini se da se vizualna obrada, prepoznavanje govora i nešto poput osnovnih ljudskih stvari koje radimo sa osjetilnom percepcijom smatraju prvim preprekama koje treba prevladati, zar ne?

I da i ne, jer postoje i druge stvarišto činimo dobro je ista pokretljivost. Vrlo smo dobri u kontroli motoričkih sposobnosti. Naš mozak je definitivno prilagođen za to. I tek sada neuronske mreže počinju se natjecati s najboljim drugim tehnologijama za to. Na kraju će pobijediti, ali sada tek počinju pobjeđivati.

Mislim da razmišljanje, apstraktno razmišljanje - posljednje što učimo. Mislim da će biti među posljednjim stvarima koje ove neuronske mreže uče raditi.

I tako stalno govorite da će neuronske mreže na kraju pobijediti svugdje.

Pa, mi smo neuronske mreže. Sve što možemo, i oni mogu.

Istina, ali ljudski mozak je daleko od najučinkovitijeg računala ikada stvorenog.

Definitivno ne.

Definitivno ne moj ljudski mozak! Postoji li način za modeliranje strojeva koji će biti mnogo učinkovitiji od ljudskog mozga?

S gledišta filozofije, nemam prigovoraprotiv ideje da bi moglo postojati neki sasvim drugačiji način da se sve to učini. Možda, ako počnete s logikom, pokušate automatizirati logiku, smislite neki bizarni dokaz teorema, tvrdite, a zatim odlučite da ćete doći do vizualne percepcije kroz razmišljanje, možda će taj pristup pobijediti. Ali ne još. Nemam filozofske primjedbe na takvu pobjedu. Samo znamo da je mozak sposoban za to.

Ali postoje stvari koje naš mozak nije sposoban činiti dobro. Znači li to da ih neuronske mreže neće moći dobro obaviti?

Moguće je, da.

Postoji i poseban problem, a to je da ne razumijemo kako neuronske mreže funkcioniraju, zar ne?

Da, ne razumijemo kako rade.

Ne razumijemo kako funkcioniraju neuronske mrežeprema dolje. To je glavni element rada neuronskih mreža, koje ne razumijemo. Objasnite to, a onda mi dopustite da postavim sljedeće pitanje: ako znamo kako sve to funkcionira, kako to onda funkcionira?

Ako pogledate moderne sustaveračunalni vid, većina njih je uglavnom usmjerena naprijed; ne koriste povratne veze. I u modernim sustavima računalnog vida postoji još jedna stvar koja je vrlo osjetljiva na konkurentske pogreške. Možete malo promijeniti nekoliko piksela, a što je panda slika i još uvijek izgleda kao panda za vas će iznenada postati noj u razumijevanju neuronske mreže. Očito, način zamjene piksela osmišljen je tako da zavarava neuronsku mrežu, prisiljavajući je da razmisli o noju. Ali činjenica je da je za vas to još uvijek panda.

U početku smo mislili da sve radi.savršeno. Ali onda, suočeni s činjenicom da gledaju pandu i uvjereni su da je to noj, zabrinuti smo. I mislim da je dio problema u tome što ne pokušavaju rekonstruirati iz reprezentacija na visokoj razini. Pokušavaju učiti u izolaciji, kada se obučavaju samo slojevi detektora detalja, a cijela svrha je promijeniti težine kako bi bolje izgledali pravi odgovor. Nedavno smo otkrili u Torontu, ili je Nick Frost otkrio da će, ako dodate rekonstrukciju, otpor na suprotstavljenu pogrešku porasti. Mislim da se u ljudskoj viziji za obnovu koristi. A budući da puno toga učimo radeći rekonstrukciju, mnogo smo otporniji na konkurentske napade.

Mislite da vam komunikacija prema dolje u neuronskoj mreži omogućuje da provjerite kako se nešto rekonstruira. Provjerite ga i uvjerite se da je to panda, a ne noj.

Mislim da je ovo važno, da.

Ali znanstvenici koji proučavaju mozak, ne slažu se sasvim?

Znanstvenici s mozga ne tvrde da ako imate dvapodručja korteksa na putu opažanja, uvijek će postojati obrnute veze. Oni se svađaju s čime se služi. To može biti potrebno za pažnju, obuku ili rekonstrukciju. Ili za sva tri.

I zato ne znamo što je povratna informacija. Vi gradite svoje nove neuronske mreže, polazeći od pretpostavke da ... ne, čak ni to - gradite povratne informacije, jer je to potrebno za rekonstrukciju vaših neuronskih mreža, iako ne razumijete čak ni kako mozak radi?

Da.

Nije li to trik? Pa, to jest, ako pokušavate učiniti nešto poput mozga, ali niste sigurni što mozak radi?

Ne baš. Ne radim računalnu neuroznanost. Ne pokušavam stvoriti model mozga. Gledam u mozak i kažem: "Djeluje, i ako želimo učiniti nešto drugo što djeluje, moramo ga gledati i biti nadahnuti njime." Inspirirani smo neuronima, umjesto da gradimo neuronski model. Dakle, cijeli model, neuroni koje koristimo, inspirirani su činjenicom da neuroni imaju mnogo veza i da mijenjaju težinu.

Ovo je zanimljivo. Da sam kompjuterski znanstvenik i radio na neuronskim mrežama i htio sam zaobići Jeffa Hintona, jedna od mogućnosti bila bi izgraditi downlink komunikaciju i temeljiti je na drugim modelima znanosti o mozgu. Temeljeći se na obuci, a ne na obnovi.

Da postoje bolji modeli, pobijedio bi. Da.

To je vrlo, vrlo zanimljivo. Osvrnimo se na općenitiju temu. Dakle, neuronske mreže mogu riješiti sve moguće probleme. Postoje li zagonetke ljudskog mozga koje ne mogu ili neće pokriti neuronske mreže? Na primjer, emocije.

Ne.

Dakle, ljubav se može rekonstruirati neuronskom mrežom? Svijest se može rekonstruirati?

Apsolutno. Jednom kad shvatite što to znače. Mi smo neuronske mreže, zar ne? Svijest je za mene posebno zanimljiva tema. Ali ... ljudi zapravo ne znaju što oni znače ovom riječju. Postoji mnogo različitih definicija. I mislim da je ovo prilično znanstveni pojam. Stoga, ako ste prije 100 godina pitali ljude: što je život? Odgovorili bi: “Pa, živa bića imaju životnu snagu, a kad umru, životna sila ih napušta. To je razlika između živih i mrtvih, ili imate životnu snagu ili ne. " Sada nemamo vitalnosti, mislimo da se taj koncept pojavio pred znanošću. Čim počnete malo razumjeti biokemiju i molekularnu biologiju, vi više ne trebate vitalnost, shvatit ćete kako sve to stvarno djeluje. I ista stvar, mislim, dogodit će se sa sviješću. Mislim da je svijest pokušaj objašnjavanja mentalnih pojava upotrebom entiteta. I ovaj entitet nije potreban. Čim to možete objasniti, možete objasniti kako radimo sve što čini ljude svjesnim bićima, objašnjavamo različita značenja svijesti, bez privlačenja određenih entiteta.

Ispada da nema emocija koje ne mogustvoriti? Nema misli za stvaranje? Ne postoji ništa što ljudski um može učiniti, da bi teoretski bilo nemoguće stvoriti potpuno funkcionalnu neuronsku mrežu, kad jednom shvatimo kako funkcionira mozak?

John Lennon je pjevao nešto slično u jednoj od svojih pjesama.

Jeste li 100% sigurni u to?

Ne, ja sam Bayesian, tako da sam 99,9% siguran.

Pa, što je onda 0,01%?

Pa, mogli bismo, na primjer, biti dio velike simulacije.

Sajam. Dakle, što učimo o mozgu iz rada na računalima?

Pa, mislim od onoga za što smo naučiliu posljednjih 10 godina, zanimljivo je da ako uzmete sustav s milijardama parametara i ciljnu funkciju - na primjer, da popunite prazninu u nizu riječi - to će raditi bolje nego što bi trebalo. Radit će mnogo bolje nego što biste očekivali. Možda ćete pomisliti da bi mnogi ljudi na području tradicionalnog istraživanja na temu AI-a pomislili da možete uzeti sustav s milijardom parametara, pokrenuti ga slučajnim vrijednostima, izmjeriti gradijentnu funkciju i zatim je ispraviti kako bi se poboljšala funkcija cilja. Možda mislite da će se beznadni algoritam neizbježno zaglaviti. Ali ne, ispada, ovo je stvarno dobar algoritam. I što je razmjer veći, to bolje funkcionira. I to je otkriće bilo u osnovi empirijsko. Naravno, iza svega je bilo teorije, ali otkriće je bilo empirijsko. A sada, otkako smo to otkrili, čini se vjerojatnijim da mozak izračunava gradijent određene ciljne funkcije i ažurira težine i snagu veze sinapsi kako bi održao korak s ovim gradijentom. Potrebno je samo saznati što je to ciljna funkcija i kako se ona pogoršava.

Ali nismo ga razumjeli na primjeru mozga? Niste razumjeli težinu ažuriranja?

To je bila teorija. Davno su ljudi mislili da je to moguće. Ali u pozadini su uvijek postojali računalni znanstvenici koji su govorili: "Da, ali ideja da je sve slučajno i učenje nastaje zbog gradijentnog silaska neće raditi s milijardom parametara, morat ćete povezati puno znanja". Sada znamo da nije. Možete jednostavno unijeti slučajne parametre i naučiti sve.

Uronimo malo. Kako učimo sve više i više, od nas se očekuje da nastavimo učiti sve više i više o tome kako ljudski mozak funkcionira, jer ćemo provoditi masivne testove modela koji se temelje na našim idejama o moždanim funkcijama. Čim to bolje shvatimo, hoće li biti trenutka kada ćemo u suštini obnoviti naš mozak da bismo postali mnogo učinkovitiji strojevi?

Ako stvarno razumijemo što se događa, mimožemo poboljšati neke stvari poput obrazovanja. I mislim da ćemo se poboljšati. Bilo bi vrlo čudno konačno shvatiti što se događa u vašem mozgu, kako se uči, a ne prilagođavati se na takav način da bolje uči.

Kako mislite, kako u nekoliko godina koristimo ono što smo naučili o mozgu io radu dubokog učenja, kako bismo promijenili obrazovanje? Kako biste promijenili nastavu?

Nisam siguran da ćemo za nekoliko godina naučiti mnogo. Mislim da će promjena obrazovanja trajati dulje. Ali ako govorite o tome, [digitalni] pomoćnici postaju prilično pametni. A kada pomagači mogu razumjeti razgovore, oni mogu razgovarati s djecom i podučavati ih.

I teoretski, ako bolje razumijemo mozak, moći ćemo programirati pomagače kako bi bolje razgovarali s djecom, počevši od onoga što su već naučili.

Da, ali nisam mnogo razmišljao o tome. Ja radim drugu. Ali sve se čini sasvim slično istini.

Možemo li razumjeti kako snovi funkcioniraju?

Da, jako me zanimaju snovi. Tako me zanima da imam barem četiri različite teorije snova.

Recite o njima - o prvom, drugom, trećem, četvrtom.

Jednom davno postojale su takve stvari koje se zovu mrežaHopfield, i oni su proučavali sjećanja kao lokalne atraktore. Hopfield je otkrio da će, ako pokušate staviti previše sjećanja, biti zbunjeni. Uzet će dva lokalna atraktora i kombinirati ih u jedan atraktor negdje na pola puta između njih.

Zatim su došli Francis Creek i Graham Mitchison irekli su da se možemo riješiti tih lažnih padova odučavanjem (tj. zaboravljanjem onoga što smo naučili). Mi onemogućiti unos podataka, prijenos neuronske mreže na slučajno stanje, dopustiti da se smiri, reći da je loše, promijeniti veze kako ne bi pasti u ovo stanje, a time i možete napraviti mrežu pohraniti više sjećanja.

Onda smo došli s Terryjem Sejnovskim i rekli: "Slušajte, ako imamo ne samo neurone koji pohranjuju uspomene, nego i hrpu drugih neurona, možemo li pronaći algoritam koji će iskoristiti sve te druge neurone za pomoć u vraćanju sjećanja?" Kao rezultat toga, izradili smo algoritam strojnog učenja Boltzmanna. A Boltzmannov algoritam strojnog učenja imao je iznimno zanimljivo svojstvo: prikazujem podatke, a on nekako prolazi kroz preostale jedinice dok ne dođe u vrlo sretno stanje, a nakon toga povećava snagu svih veza, na temelju činjenice da su dvije jedinice aktivne u isto vrijeme.

Također biste trebali imati fazu u kojoj steisključite ulaz, dopustite algoritmu da se "okrene" i prevedete ga u stanje u kojem je zadovoljan, tako da ga mašta, i čim dobije fantaziju, kažete: "Uzmite sve parove neurona koji su aktivni i smanjite snagu veza."

Objašnjavam vam algoritam kao proceduru. Ali u stvarnosti, ovaj algoritam je proizvod matematike i pitanje: "Kako bi se trebali mijenjati ovi lanci veza, tako da ova neuronska mreža sa svim tim skrivenim jedinicama ne bi pronašla nikakve podatke?". I mora postojati još jedna faza, koju nazivamo negativna faza, kada mreža radi bez unosa podataka i uči, bez obzira na stanje u koje ste ga stavili.

Svake noći vidimo snove za mnogo sati. A ako se odjednom probudite, možete reći da ste upravo sanjali, jer je san pohranjen u kratkoročnom pamćenju. Znamo da snove vidimo mnogo sati, ali ujutro, nakon buđenja, možemo se sjetiti samo posljednjeg sna, a drugi se ne sjećaju da je bio vrlo uspješan, jer bi se pogrešno shvatio kao stvarnost. Pa zašto se uopće ne sjetimo naših snova? Prema Cricku, to je značenje snova: odučiti te stvari. Nekako naučite suprotno.

Terry Seinowski i ja pokazali smo da je to zapravo postupak učenja s najvećom vjerojatnošću za Boltzmannove strojeve. Ovo je prva teorija snova.

Želim se prebaciti na druge teorije. Ali postavite pitanje: jeste li uspjeli trenirati bilo koji od vaših algoritama za duboko učenje da bi zapravo sanjali?

Neki od prvih algoritama koji su mogliKako bi naučili kako raditi sa skrivenim jedinicama, postojali su Boltzmann strojevi. Bili su iznimno neučinkoviti. Ali kasnije sam pronašao način rada s aproksimacijama, koje su se pokazale djelotvornima. I to je zapravo potaknulo nastavak rada s dubokim učenjem. To su stvari koje su istodobno poučavale jedan sloj detektora funkcija. I to je bio učinkovit oblik Boltzmannove restriktivne mašine. I tako je bila uključena u ovu vrstu obrnutog treninga. Ali umjesto da zaspi, mogla je malo zamisliti nakon svake oznake s podacima.

Pa, to znači da androidi zapravo sanjaju o elektroshotovima. Prijeđimo na teorije dva, tri i četiri.

Teorija Dva nazvana je algoritam Wake Sleep[algoritam za buđenje-spavanje]. Trebate trenirati generativni model. Imate ideju da stvorite model koji može generirati podatke, ima slojeve detektora značajki i aktivira više i niže slojeve, i tako dalje, sve do aktivacije piksela - stvaranja slike, zapravo. Ali želio bi je naučiti drugom. Želite da ona prepozna podatke.

I tako morate napraviti algoritam s dvafaze. U fazi buđenja, podaci dolaze, on ih pokušava prepoznati, a umjesto proučavanja veza koje koristi za prepoznavanje, proučava generativne veze. Dolaze podaci, aktiviram skrivene jedinice. I onda pokušavam naučiti te skrivene jedinice da oporave ove podatke. On uči rekonstruirati u svakom sloju. Ali pitanje je kako proučavati izravne veze? Stoga, ideja je da ako znate izravne veze, možete naučiti obrnute veze, jer možete naučiti kako rekonstruirati.

Sada također ispada da ako koristiteobrnute veze, možete naučiti i izravne veze, jer možete jednostavno početi od vrha i generirati malo podataka. A budući da generirate podatke, znate stanja svih skrivenih slojeva i možete proučavati izravne veze za vraćanje tih stanja. I to se događa: ako počnete sa slučajnim vezama i pokušate naizmjence koristiti obje faze, sve će ispasti. Da biste dobro radili, morat ćete isprobati različite opcije, ali će raditi.

Pa, što je s druge dvije teorije? Ostalo nam je samo osam minuta, mislim da neću imati vremena pitati o svemu.

Daj mi još jedan sat i reći ću ti za druga dva.

Razgovarajmo o onome što slijedi. Kamo ide vaš studij? Koje probleme sada pokušavate riješiti?

Na kraju, moram raditi na nečemušto posao još nije dovršen. Mislim da mogu raditi na nečemu što nikada neću dovršiti, nazvanom "kapsule", teorijom o tome kako se vizualna percepcija izvodi pomoću rekonstrukcije i kako se informacije šalju na prava mjesta. Dva glavna motivirajuća faktora bila su da u standardnim neuronskim mrežama, informacija, aktivnost u sloju samo automatski ide negdje, a vi ne donosite odluke o tome gdje ga poslati. Ideja kapsula bila je donositi odluke o tome gdje poslati informacije.

Sada, kada sam počeo raditi na kapsulama, vrlo pametni ljudi iz Googlea izumili su transformatore koji rade isto. Oni odlučuju gdje poslati informacije, a ovo je velika pobjeda.

Sljedeće godine ćemo se vratiti govoriti o teorijama snova broj tri i broju četiri.

Prijavite se u naš razgovor u Telegramu da ne propustite.

Članak koristi ilustracije Marije Menshikove.