tutkimus

Eivätkö neuronit unelmoida sähköiskuttimista? Ensimmäisten hermoverkkojen luoja kertoi kehityksestään ja tulevaisuudestaan

Jeffrey Hinton - yksi konseptin luojistasyvällinen oppiminen, Turing Award 2019 -palkinnon saaja ja Googlen insinööri. Viime viikolla I / O-kehittäjäkonferenssin aikana Wired haastatteli häntä ja keskusteli hänen kiinnostuksestaan ​​aivoihin ja kykyyn suunnitella tietokonetta aivojen hermorakenteen perusteella. Näitä ajatuksia pidettiin pitkään typerinä. Mielenkiintoinen ja kiehtova keskustelu tietoisuudesta, Hintonin tulevista suunnitelmista ja siitä, voidaanko tietokoneita opettaa unelma.

Mitä tapahtuu hermoverkoissa?

Aloitetaan aikoina, kun kirjoititheidän ensimmäinen, hyvin vaikuttava artikkeli. Kaikki sanoivat: "Ajatus on fiksu, mutta itse asiassa emme voi suunnitella tietokoneita tällä tavalla." Selitä, miksi olet vaatinut itseäsi ja miksi olit niin varma, että löysit jotain tärkeää.

Minusta tuntui, että aivot eivät voineet toimia jotenkintoisin. Hän on velvollinen työskentelemään ja tutkimaan yhteyksien voimaa. Ja jos haluat tehdä laitteesta jotain taitavaa, sinulla on kaksi vaihtoehtoa: voit joko ohjelmoida sen tai oppii. Ja kukaan ei ohjelmoinut ihmisiä, joten meidän oli opittava. Näin olisi pitänyt olla oikein.

Selitä, mitä hermoverkot ovat. Selitä alkuperäinen esitys.

Otat suhteellisen yksinkertaisen työstön.elementit, jotka muistuttavat hermoja. Heillä on saapuvat yhteydet, jokaisella yhteydellä on paino, ja tämä paino voi muuttua harjoituksen aikana. Mitä neuroni tekee on ryhtyä toimiin yhteyksillä kerrottuna painoilla, tiivistää ne ja päättää sitten, lähetetäänkö tietoja. Jos summa on kirjoitettu riittävän suureksi, se antaa tuloksen. Jos summa on negatiivinen, se ei lähetä mitään. Se on kaikki. Sinun tarvitsee vain kytkeä sellaisten hermosolujen pilvi painoilla ja selvittää, miten nämä painot muutetaan, ja sitten he tekevät mitä haluavat. Ainoa kysymys on, miten muutat painoa.

Milloin ymmärsi, että tämä on karkea ajatus siitä, miten aivot toimivat?

Voi kyllä, kaikki oli alun perin tarkoitettu. Suunniteltu muistuttamaan työhön aivoja.

Joten, tietyssä vaiheessa urasi, sinäalkoi ymmärtää, miten aivot toimivat. Ehkä olit kaksitoista, ehkä kaksikymmentäviisi. Milloin päätit yrittää mallintaa tietokoneita aivotyypin mukaan?

Kyllä, heti. Se oli koko asia. Koko ajatuksena oli luoda oppimislaite, joka oppii kuin aivot, ihmisten ajatusten mukaan siitä, miten aivot oppivat, muuttamalla yhteyksien voimakkuutta. Ja se ei ollut minun ideani, Turingillä oli sama ajatus. Vaikka Turing keksi valtavan osan perusinformatiikan perusasioista, hän uskoi, että aivot olivat järjestäytymättömiä laitteita, joissa oli satunnaisia ​​painoja, ja käytti vahvistuskoulutusta yhteyksien muuttamiseksi, joten hän voisi oppia mitään. Ja hän uskoi, että tämä oli paras tie älykkyyteen.

Ja seurasit Turingin ajatusta, että paras tapa luoda auto - suunnitella sitä kuin ihmisen aivoja. Joten he sanovat, että ihmisen aivot toimivat, niin luodaan vastaava kone.

Kyllä, ei vain Turing ajatteli niin. Monet ajattelivat niin.

Milloin tulivat pimeät ajat? Kun tapahtui, että muut ihmiset, jotka työskentelivät sen kanssa ja ajattelivat, että Turingin idea oli oikeassa, alkoivat vetäytyä, ja jatkoit taivuttamalla linjaasi?

On aina ollut kourallinen ihmisiä, jotka uskoivatkaikesta huolimatta, etenkin psykologian alalla. Mutta tietojenkäsittelytieteen tutkijoiden joukossa, uskon, 90-luvulla kävi ilmi, että tietokokonaisuudet olivat riittävän pieniä, ja tietokoneet eivät olleet niin nopeita. Pienillä tietosarjoilla muut menetelmät, erityisesti tukivektorikone, toimivat hieman paremmin. Melu ei ollut niin hämmentynyt. Kaikki tämä oli surullista, koska 80-luvulla kehitimme selän etenemismenetelmän [takaisin eteneminen, virheen etenemismenetelmä, joka on erittäin tärkeä hermoverkoille]. Luulimme, että hän ratkaisisi kaiken. Ja he olivat hämmentyneitä siitä, että hän ei päättänyt mitään. Kysymys oli todella mittakaavassa, mutta sitten emme tienneet.

Miksi luulit, ettei se toimi?

Luulimme, että se ei toimi, koska meillä olialgoritmeja ei ollut aivan oikein ja ne eivät olleet oikeastaan ​​oikeat. Ajattelin pitkään, että tämä johtui siitä, että yritimme harjoittaa koulutusta tarkkailemalla, kun merkit tietoja, ja jouduimme osallistumaan koulutukseen ilman tarkkailua, kun koulutus järjestetään merkitsemättömien tietojen mukaan. Kävi ilmi, että kysymys oli suurimmaksi osaksi mittakaavassa.

Tämä on mielenkiintoista. On käynyt ilmi, että ongelmana oli, että sinulla ei ollut riittävästi tietoja. Luulit, että sinulla oli oikea määrä tietoja, mutta olet merkinnyt sen väärin. On käynyt ilmi, että olet juuri tunnistanut ongelman väärin

Ajattelin, että virhe oli se, että olimmekäytä tunnisteita. Suurin osa oppimisestasi tapahtuu ilman mitään tunnisteita, yrität vain mallintaa tietojen rakennetta. Ajattelen sitä edelleen. Luulen, että koska tietokoneet ovat nopeampia, jos tietokone on tarpeeksi nopea, on parempi suorittaa koulutusta ilman tarkkailua mihin tahansa tietyn kokoiseen tietokokonaisuuteen. Ja heti, kun olet suorittanut tutkimuksen ilman havaintoja, voit tutkia vähemmän tunnisteita.

Joten 1990-luvulla jatkat tutkimusta,olet akateemisissa piireissä, olet edelleen julkaisemassa, mutta et ratkaise suuria ongelmia. Onko sinulla koskaan ollut hetki, kun sanoitte: ”Tiedätkö, se riittää siitä. Yritetään tehdä jotain muuta? " Tai oletteko yksinkertaisesti kertonut itsellesi, että jatkatte syvällistä oppimista [eli käsite syvä oppiminen, syvälliset oppimisen hermoverkot; lue lisää täältä.]

Kyllä. Tämän kaltaisen pitäisi toimia. Tarkoitan, että aivoissa olevat yhdisteet oppivat jotenkin, meidän täytyy vain selvittää, miten. Ja ehkä on monia eri tapoja vahvistaa yhteyksiä oppimisprosessissa; aivot käyttävät yhtä niistä. Voi olla muitakin tapoja. Mutta varmasti tarvitset jotain, joka voi vahvistaa näitä yhdisteitä koulutuksen aikana. Älä koskaan epäillä sitä.

Et ole koskaan epäillyt sitä. Milloin se tuntui toimivan?

Yksi 80-luvun suurimmista pettymyksistä oliettä jos teimme verkkoja monilla piilotetuilla kerroksilla, emme voineet kouluttaa niitä. Tämä ei ole täysin totta, koska voit kouluttaa suhteellisen yksinkertaisia ​​prosesseja, kuten käsinkirjoitusta. Mutta emme tienneet kouluttaa enemmistöä syvistä hermoverkoista. Ja jonnekin vuonna 2005 tulin tapa kouluttaa syviä verkostoja ilman havaintoja. Syötät tietoja, eli pikseleitä, ja koulutat useita yksityiskohtaisia ​​ilmaisimia, jotka yksinkertaisesti selittivät hyvin, miksi pikselit olivat kuin ne olivat. Sitten syötät tiedot näille ositunnistimille ja koulutat toisen sarjan ilmaisimia, jotta voimme selittää, miksi tietyillä osien ilmaisimilla on erityisiä korrelaatioita. Koulutat kerros kerroksittain. Mutta mielenkiintoisin asia oli, että voit hajota matemaattisesti ja todistaa, että aina, kun opetat uutta kerrosta, et välttämättä parantaisi tietomallia, mutta sinun täytyy käsitellä mallisi valikoimaa. Ja jokainen kerros lisäsi tämän alueen.

Mitä tarkoitat sen mallivalikoiman perusteella, jota malli on?

Kun olet saanut mallin, voit kysyäkysymys: "Kuinka epätavallinen tämä malli löytää nämä tiedot?" Näytät hänelle tiedot ja kysytään: "Löydätkö kaiken tämän tarkoituksenne mukaan vai onko se epätavallista?" Ja tämä voitaisiin mitata. Ja halusin saada mallin, hyvän mallin, joka tarkastelee tietoja ja sanoo: ”Kyllä, kyllä. Tiesin sen. Tämä ei ole yllättävää. ” On aina hyvin vaikeaa laskea tarkasti, kuinka epätavallinen malli löytää tiedot. Mutta voit laskea tämän alueen. Voidaan sanoa, että malli löytää nämä tiedot epätavallisemmiksi. Ja voidaan osoittaa, että kun yksityiskohtaiset ilmaisimet lisätään uusiin kerroksiin, muodostuu malli ja jokaisen lisättävän kerroksen kohdalla, kun se löytää tietoja, ymmärretään, kuinka epätavallinen se löytää datan.

Osoittautuu, että noin vuonna 2005 teittämä matematiikan läpimurto. Milloin aloitit oikeiden vastausten saamisen? Mitä tietoja työskentelitte? Sinulla on ensimmäinen läpimurto puhetietojen kanssa, eikö?

Nämä olivat vain käsinkirjoitettuja numeroita. Erittäin yksinkertainen. Ja samaan aikaan GPU: n (grafiikkaprosessorit) kehittäminen alkoi. Ja neuraaliverkkoihin osallistuneet alkoivat käyttää GPU: ta vuonna 2007. Minulla oli erittäin hyvä opiskelija, joka alkoi käyttää GPU: ita etsimään teitä ilmakuvista. Hän kirjoitti koodin, jonka muut opiskelijat hyväksyivät, kun he käyttivät GPU: ta tunnistaakseen puhekielen. He käyttivät tätä ajatusta aiemmasta oppimisesta. Ja kun esikoulutus saatiin päätökseen, he vain asettivat tunnisteet päälle ja käyttivät käänteistä leviämistä. Kävi ilmi, että voit luoda hyvin syvän verkon, joka on aiemmin koulutettu tällä tavalla. Ja sitten takaisin leviämistä voitaisiin soveltaa, ja se todella toimi. Puheentunnistuksessa tämä toimi täydellisesti. Aluksi se ei kuitenkaan ollut paljon parempi.

Oliko se parempi kuin kaupallisesti saatavilla oleva puheentunnistus? Ohitettiin paras puheentunnistusta koskeva tieteellinen työ?

Suhteellisen pienessä TIMIT-tietokokonaisuudessa se oli hieman parempi kuin paras akateeminen työ. IBM on myös tehnyt paljon työtä.

Hyvin nopeasti, ihmiset huomasivat, että kaikki tämä - sen jälkeense ohittaa standardimallit, jotka on kehitetty 30 vuotta - se toimii hyvin, jos kehität hieman. Tutkinnon suorittaneet pääsivät Microsoftiin, IBM: iin ja Googleen, ja Google loi nopeasti työpuhelun tunnistimen. Vuoteen 2012 mennessä tämä työ, joka tehtiin vuonna 2009, sai Androidin. Android yhtäkkiä tuli paljon paremmin tunnistamaan puheen.

Kerro minulle hetki, jolloin te, jotka olette pitäneet näitä ajatuksia 40 vuotta, julkaistu tästä aiheesta 20 vuotta, ohittavat yhtäkkiä kollegasi. Mitä tämä tunne näyttää?

No, tuolloin pidin nämä ajatukset vain 30 vuotta!

Oikea, oikea!

Oli hieno tunne, että kaikki tämä oli lopulta muuttunut todelliseksi ongelmaksi.

Muistatko, kun sait ensin tietoja, jotka osoittivat tämän?

Nro

Hyvä on. Joten ymmärrät, että se toimii puheentunnistuksella. Milloin aloitit hermoverkkojen soveltamisen muihin ongelmiin?

Aluksi aloimme soveltaa niitä kaikkiinmuita ongelmia. George Dahl, jonka kanssa alun perin työskentelimme puheentunnistuksessa, käytti heitä ennustamaan, voiko molekyyli olla yhteydessä johonkin ja tulla hyväksi lääkkeeksi. Ja siellä oli kilpailu. Hän yksinkertaisesti sovelsi standardi puheentunnistustekniikkaa ennustamaan huumeiden toimintaa ja voitti tämän kilpailun. Se oli merkki siitä, että teemme jotain hyvin yleismaailmallista. Sitten ilmestyi opiskelija, joka sanoi: ”Tiedätkö, Jeff, tämä asia toimii kuvantunnistuksella, ja Fey-Fey Lee loi tähän sopivan datan. On olemassa julkinen kilpailu, tehdään jotain.

Saimme tuloksia, jotka olivat huomattavasti parempia tietokoneiden visioon nähden. Se oli 2012.

Toisin sanoen näillä kolmella alalla olet onnistunut: kemikaalien mallinnus, puhe, ääni. Missä epäonnistui?

Ymmärrätkö, että viat ovat väliaikaisia?

No, mikä asettaa alueen, jossa se toimii?nopeimmin ja alueilla, joilla tarvitaan enemmän aikaa? Näyttää siltä, ​​että visuaalista käsittelyä, puheentunnistusta ja jotain sellaista ihmisen perusasioita, joita me aistimme aistien kanssa, pidetään ensimmäisinä esteinä, jotka on ratkaistava, eikö?

Ja kyllä ​​ja ei, koska on muitakin asioitase on hyvin sama liikkuvuus. Olemme erittäin hyviä ohjaamaan motorisia taitoja. Aivomme on varmasti mukautettu tähän. Ja vain nyt neuraaliverkot alkavat kilpailla parhaiden muiden tekniikoiden kanssa. He voittavat lopulta, mutta nyt he ovat vasta alkamassa voittaa.

Mielestäni ajattelu, abstrakti ajattelu - viimeiset asiat, joita opimme. Luulen, että he ovat viimeisten asioiden joukossa, joita nämä hermoverkot oppivat tekemään.

Ja niin sanot, että hermoverkot voittavat lopulta kaikkialla.

No, olemme hermoverkkoja. Kaikki mitä voimme, he voivat myös.

Totta, mutta ihmisen aivot ovat kaukana tehokkaimmista koskaan luotuista tietokoneista.

Ehdottomasti ei.

Ehdottomasti ei ihmisen aivojani! Onko mahdollista mallia koneita, jotka ovat paljon tehokkaampia kuin ihmisen aivot?

Filosofian näkökulmasta minulla ei ole vastalauseitavastustaa ajatusta, että voisi olla jokin muu tapa tehdä kaikki. Ehkä jos aloitat logiikan, yritä automatisoida logiikkaa, keksiä joitakin outoja todisteita teoreemeista, väittää, ja päättää sitten, että tulet visuaaliseen havaintoon päättelyn kautta, voi olla, että tämä lähestymistapa voittaa. Mutta ei vielä. Minulla ei ole filosofisia vastalauseita tällaiselle voitolle. Tiedämme vain, että aivot pystyvät siihen.

Mutta on olemassa asioita, joita aivomme eivät pysty tekemään hyvin. Tarkoittaako tämä, että myös hermoverkot eivät pysty tekemään niitä hyvin?

On mahdollista, kyllä.

Ja on olemassa erillinen ongelma, joka on se, että emme täysin ymmärrä, miten hermoverkot toimivat, eikö?

Kyllä, emme todellakaan ymmärrä, miten he toimivat.

Emme ymmärrä, miten hermoverkot toimivatalaspäin. Tämä on keskeinen osa hermoverkkojen työtä, jota emme ymmärrä. Selitä tämä ja anna minun kysyä seuraavaa kysymystä: jos tiedämme, miten kaikki toimii, miten se toimii sitten?

Jos katsot nykyaikaisia ​​järjestelmiätietokoneen visio, suurin osa niistä on suunnattu eteenpäin; he eivät käytä takaisinkytkentäyhteyksiä. Nykyaikaisissa tietokoneiden visiojärjestelmissä on vielä yksi asia, joka on hyvin alttiita kilpailuvirheille. Voit vaihtaa muutaman pikselin, ja mikä oli panda-kuva ja näyttää silti täsmälleen kuin panda, josta tulee yhtäkkiä strutsi hermoverkon ymmärtämisessä. Ilmeisesti tapa korvata pikseleitä on suunniteltu pettämään hermoverkkoa ja pakottamaan hänet ajattelemaan strutsia. Mutta tosiasia on, että teille on edelleen panda.

Aluksi ajattelimme, että kaikki toimi.täydellisesti. Mutta sitten, kun on kyse siitä, että he katsovat pandaa ja luottavat siihen, että kyseessä on strutsi, olemme huolissamme. Ja mielestäni osa ongelmasta on, että he eivät yritä rekonstruoida korkean tason esityksiä. He yrittävät oppia erillään, kun vain yksityiskohtien ilmaisimien kerroksia koulutetaan, ja koko tarkoituksena on muuttaa painoja niin, että ne etsivät paremmin oikeaa vastausta. Löysimme äskettäin Torontossa, tai Nick Frost huomasi, että jos lisäät jälleenrakennuksen, vastustuskyky vastakkaiseen virheeseen kasvaa. Uskon, että ihmisen näkemyksessä jälleenrakennuksesta käytetään. Ja koska me opimme paljon tekemällä jälleenrakennuksen, olemme paljon vastustuskykyisempiä kilpaileviin hyökkäyksiin.

Luulet, että hermoverkossa tapahtuva alaspäin suuntautuva kommunikaatio mahdollistaa sen, että voit tarkistaa, miten jotain on rekonstruoitu. Tarkasta se ja varmista, että se on panda, ei strutsi.

Tämä on mielestäni tärkeää, kyllä.

Mutta tutkijat, jotka tutkivat aivoja, eivät ole täysin samaa mieltä?

Aivotutkijat eivät väitä, että jos sinulla on kaksiaivokuoren alueet havaintoreitillä, on aina käänteisiä yhteyksiä. He väittävät, mitä se on. Se voi olla tarpeen huomion, koulutuksen tai jälleenrakentamisen kannalta. Tai kaikille kolmelle.

Siksi emme tiedä, mitä palautetta on. Rakennat uusia hermoverkkojasi lähtien olettamuksesta, että ... ei, ei edes sitä - rakennat palautetta, koska se on tarpeen neuroverkkojen jälleenrakentamiseen, vaikka et edes ymmärrä, miten aivot toimivat?

Kyllä.

Eikö se ole temppu? No, jos yrität tehdä jotain aivojen kaltaiseksi, mutta et ole varma, mitä aivot tekevät?

Ei oikeastaan. En tee laskennallista neurotietoa. En yritä luoda aivomallia. Katson aivoja ja sanon: "Se toimii, ja jos haluamme tehdä jotain muuta, joka toimii, meidän on tarkasteltava sitä ja inspiroitava siitä." Neuronien innoittamana olemme neuraalisen mallin rakentamisen sijaan. Näin ollen koko malli, käyttämämme neuronit ovat innoittamana siitä, että neuroneilla on monia yhteyksiä ja että ne muuttavat painoja.

Tämä on mielenkiintoista. Jos olisin tietotekniikan tutkija ja työskentelin hermoverkoissa ja halusin ohittaa Jeff Hintonin, yksi vaihtoehdoista olisi rakentaa alasuuntaisen linkin viestintä ja perustaa se muihin aivotieteiden malleihin. Koulutuksen perusteella, ei jälleenrakentamisessa.

Jos olisi parempia malleja, olisit voittanut. Kyllä.

Se on hyvin, hyvin mielenkiintoista. Koskettakaa yleisempi aihe. Niinpä hermoverkot voivat ratkaista kaikki mahdolliset ongelmat. Onko ihmisen aivoissa pulmia, jotka eivät kykene tai eivät kata hermoverkkoja? Esimerkiksi tunteet.

Nro

Joten rakkautta voidaan rekonstruoida hermoverkko? Tietoisuus voidaan palauttaa?

Ehdottomasti. Kun olet selvittänyt, mitä nämä asiat tarkoittavat. Olemme hermoverkkoja, eikö? Tietoisuus on minulle erityisen mielenkiintoinen aihe. Mutta ... ihmiset eivät todellakaan tiedä, mitä ne tarkoittavat tällä sanalla. Eri määritelmiä on paljon. Ja mielestäni tämä on melko tieteellinen termi. Jos siis 100 vuotta sitten kysytte ihmisiä: mikä on elämä? He vastasivat: ”Elävillä asioilla on elinvoimaa, ja kun he kuolevat, elämänvoima lähtee heistä. Tämä on ero elävien ja kuolleiden välillä, joko sinulla on elinvoimaa tai ei. Nyt meillä ei ole elinvoimaa, mielestämme tämä käsite ilmestyi ennen tieteen alkua. Ja heti, kun alatte hieman ymmärtää biokemian ja molekyylibiologian, sinun ei tarvitse enää elinvoimaa, ymmärrät, miten kaikki todella toimii. Ja sama asia, mielestäni, tapahtuu tietoisuudella. Luulen, että tietoisuus on yritys selittää henkisiä ilmiöitä kokonaisuuden käyttöön. Ja tämä yksikkö, sitä ei tarvita. Heti kun voit selittää sen, voit selittää, miten teemme kaiken, mikä tekee ihmisistä tietoisia olentoja, selittää tietoisuuden eri merkityksiä houkuttelematta mitään tiettyjä kokonaisuuksia.

On käynyt ilmi, että ei ole mitään tunteita, joita ei voiluo? Ei ajatusta luoda? Ei ole mitään, mitä ihmisen mieli voi tehdä, että teoreettisesti olisi mahdotonta luoda täysin toimiva hermoverkko, kun ymmärrämme, miten aivot toimivat?

John Lennon lauloi jotain samanlaista yhdessä hänen kappaleistaan.

Oletko 100% varma tästä?

Ei, olen Bayesilainen, joten olen 99,9% varma.

No, mitä sitten on tämä 0,01%?

No, me voisimme esimerkiksi olla osa suurta simulointia.

Oikeudenmukainen. Mitä siis opimme aivoista tietokoneistamme tekemästämme työstä?

No, olen sitä mieltä, mitä olemme oppineetViimeisten kymmenen vuoden aikana on mielenkiintoista, että jos otat järjestelmän, jossa on miljardeja parametreja ja tavoitefunktio - esimerkiksi täyttämään aukko sanasarjassa - se toimii paremmin kuin pitäisi. Se toimii paljon paremmin kuin saatat odottaa. Saatat ajatella, ja monet ihmiset perinteisen tutkimuksen alalla AI: n mielestä ajattelevat, että voit ottaa järjestelmän, jossa on miljardi parametria, suorittaa se satunnaisarvoissa, mitata tavoitteen funktion kaltevuutta ja korjata se siten, että tavoitefunktio paranee. Saatat ajatella, että toivoton algoritmi jää väistämättä jumiin. Mutta ei, se osoittautuu, tämä on todella hyvä algoritmi. Mitä suurempi mittakaava, sitä paremmin se toimii. Ja tämä löytö oli olennaisesti empiirinen. Kaiken tämän takana oli tietysti teoria, mutta keksintö oli empiirinen. Ja nyt, kun huomasimme tämän, näyttää todennäköisemmältä, että aivot laskevat tietyn objektiivifunktion gradientin ja päivittävät synapsien yhteyden painot ja voimakkuuden, jotta tämä gradientti pysyisi. Meidän on vain selvitettävä, mikä tämä tavoite on ja miten se huononee.

Mutta emme ymmärtäneet sitä aivojen esimerkissä? Etkö ymmärtänyt päivityspainoja?

Se oli teoria. Kauan sitten ihmiset ajattelivat sen olevan mahdollista. Taustalla oli kuitenkin aina tietokonetieteilijöitä, jotka sanoivat: ”Kyllä, mutta ajatus siitä, että kaikki on satunnainen ja oppiminen johtuu gradientin laskemisesta, ei toimi miljardin parametrin kanssa, sinun on liitettävä paljon tietoa”. Nyt tiedämme, että se ei ole. Voit yksinkertaisesti syöttää satunnaisia ​​parametreja ja oppia kaiken.

Sukelletaan vähän. Kun opimme enemmän ja enemmän, meidän odotetaan edelleen oppivan enemmän ja enemmän siitä, miten ihmisen aivot toimivat, koska teemme massiivisia testejä malleista, jotka perustuvat aivotoimintamme ajatuksiin. Heti kun ymmärrämme tämän paremmin, on hetki, kun aiomme uudistetaan olennaisesti tehokkaammiksi koneiksi?

Jos me todella ymmärrämme, mitä tapahtuu, mevoimme parantaa joitakin asioita, kuten koulutusta. Ja mielestäni parannamme. Olisi hyvin outoa vihdoin ymmärtää, mitä aivoissa tapahtuu, miten se oppii, eikä sopeutua tavalla, joka on parempi opiskella.

Miten luulet, miten muutaman vuoden kuluttua käytämme sitä, mitä olemme oppineet aivoista ja syvällisen oppimisen työstä, muuttamaan koulutusta? Miten muuttaisit luokat?

En ole varma, että muutaman vuoden kuluttua opimme paljon. Uskon, että koulutuksen muuttaminen kestää kauemmin. Mutta jos puhut siitä, [digitaaliset] avustajat saavat melko älykkäitä. Ja kun auttajat voivat ymmärtää keskusteluja, he voivat puhua lasten kanssa ja opettaa heitä.

Ja teoriassa, jos ymmärrämme aivot paremmin, pystymme ohjelmoimaan avustajia, jotta he voisivat paremmin puhua lasten kanssa siitä lähtien, mitä he ovat jo oppineet.

Kyllä, mutta en ajatellut sitä paljon. Teen toisen. Mutta kaikki tuntuu aivan samalta kuin totuus.

Voimmeko ymmärtää, miten unelmat toimivat?

Kyllä, olen hyvin kiinnostunut unista. Olen niin kiinnostunut, että minulla on vähintään neljä eri unelmien teoriaa.

Kerro niistä - ensimmäisestä, toisesta, kolmannesta, neljännestä.

Kauan sitten oli tällaisia ​​asioita, joita kutsutaan verkoksiHopfield, ja he opiskelivat muistoja paikallisina houkuttelijoina. Hopfield huomasi, että jos yrität laittaa liikaa muistoja, ne ovat hämmentyneitä. He ottavat kaksi paikallista houkuttelijaa ja yhdistävät ne yhteen houkuttelijaan jossain puolivälissä.

Sitten tuli Francis Creek ja Graham Mitchison jahe sanoivat, että voimme päästä eroon näistä vääristä matoista opettelemalla (eli unohtamatta sitä, mitä olemme oppineet). Poistamme datan syöttämisen, siirrämme hermoverkon satunnaiselle tilalle, annamme sen rauhoittua, sanoa, että se on huono, vaihda yhteyksiä niin, etteivät ne putoa tähän tilaan, ja näin voit tehdä verkosta enemmän muistoja.

Sitten tulimme Terry Sejnovskin kanssa ja sanoimme: "Kuuntele, jos meillä ei ole vain neuroneja, jotka tallentavat muistoja, vaan myös joukon muita neuroneja, voimmeko löytää algoritmin, joka käyttää kaikkia näitä muita neuroneja muistien palauttamiseksi?" Tämän seurauksena luotiin Boltzmann-koneen oppimisalgoritmi. Ja Boltzmann-koneen oppimisalgoritmilla oli äärimmäisen mielenkiintoinen ominaisuus: näytän tiedot, ja hän kulkee muiden yksiköiden läpi, kunnes hän joutuu hyvin onnelliseen tilaan, ja sen jälkeen hän lisää kaikkien yhteyksien vahvuutta sen perusteella, että kaksi yksikköä on aktiivinen samanaikaisesti.

Sinun pitäisi myös olla vaihe, jossa sinäsammuta tulo, anna algoritmin "kääntyä ympäri" ja kääntää se tilaksi, jossa se on tyytyväinen, niin että se fantasisoi ja heti kun hänellä on fantasia, sanot: "Ota kaikki aktiiviset neuroniparit ja pienennä yhteyksien voimakkuutta."

Selitän sinulle algoritmin menettelytapana. Todellisuudessa tämä algoritmi on matematiikan tuote ja kysymys: ”Miten näitä yhteyksien ketjuja tulisi muuttaa, jotta tämä hermoverkko, jossa on kaikki nämä piilotetut yksiköt, ei löydä mitään tietoa?”. Ja täytyy olla toinen vaihe, jota kutsumme negatiiviseksi vaiheeksi, kun verkko toimii ilman tietojen syöttöä ja oppii, riippumatta siitä, missä tilassa olet asettanut sen.

Näemme unia monta tuntia joka ilta. Ja jos heräät yhtäkkiä, voit sanoa, että olet juuri unelmoinut, koska unelma tallennetaan lyhyen aikavälin muistiin. Tiedämme, että näemme unelmia monta tuntia, mutta aamulla heräämisen jälkeen voimme vain muistaa viimeisen unelman, ja toiset eivät muista, että se oli hyvin onnistunut, koska se olisi väärin ottaa ne todellisiksi. Miksi emme siis muista unelmiamme ollenkaan? Crickin mukaan tämä on unelmien merkitys: näiden asioiden opetteleminen. Sinä opit päinvastoin.

Terry Seinowski ja minä osoitimme, että tämä on itse asiassa oppimisprosessi, jolla on suurin todennäköisyys Boltzmannin koneille. Tämä on ensimmäinen unelmien teoria.

Haluan vaihtaa muihin teorioihisi. Mutta kysykää: onko sinulla onnistuttu kouluttamaan jokin syvistä oppimisalgoritmeista, jotta voisit todella unelmoida?

Jotkut ensimmäisistä algoritmeistaOpettelemaan piilotettujen yksiköiden kanssa tehtiin Boltzmann-koneita. Ne olivat erittäin tehottomia. Mutta myöhemmin löysin tavan työskennellä lähentymisillä, jotka osoittautuivat tehokkaiksi. Ja tämä johti syvällisen oppimisen uudelleen aloittamiseen. Nämä olivat asioita, jotka opettivat kerralla funktion ilmaisimia. Ja se oli Boltzmannin rajoittavan koneen tehokas muoto. Ja niin hän oli mukana tällaisessa käänteiskoulutuksessa. Mutta sen sijaan, että menisit nukkumaan, hän voisi vain kuvitella hieman jokaisen tunnisteen jälkeen.

No, se tarkoittaa, että androidit todella haaveilevat sähköstä. Siirrymme kahteen, kolmeen ja neljään teoriaan.

Teoria Kaksi nimettiin Wake Sleep Algorithmiksi[herätys-algoritmi]. Sinun täytyy kouluttaa generatiivinen malli. Ja sinulla on idea luoda malli, joka pystyy tuottamaan dataa, sillä on ominaisuusilmaisimien kerroksia ja aktivoidaan ylemmät ja alemmat kerrokset, ja niin edelleen, jopa pikseleiden aktivointiin - luodaan kuva. Mutta haluaisit opettaa hänelle toista. Haluaisit, että hän tunnistaa tiedot.

Ja niin sinun täytyy tehdä algoritmi kahdellavaiheet. Herätysvaiheessa tiedot tulevat sisään, hän yrittää tunnistaa ne, ja sen sijaan, että tutkisi yhteyksiä, joita hän käyttää tunnistamiseen, hän tutkii generatiivisia yhteyksiä. Tiedot saapuvat, aktivoin piilotetut yksiköt. Ja sitten yritän opettaa näitä piilotettuja yksiköitä palauttamaan nämä tiedot. Hän oppii rekonstruoimaan jokaisessa kerroksessa. Mutta kysymys on, miten suoria yhteyksiä tutkitaan? Siksi ajatuksena on, että jos tiesit suorat yhteydet, voit oppia käänteisiä yhteyksiä, koska voisit oppia rekonstruoimaan.

Nyt käy myös ilmi, että jos käytätkääntää yhteyksiä, voit oppia ja suoria yhteyksiä, koska voit vain aloittaa ylhäältä ja luoda vähän tietoa. Ja koska luot tietoja, tiedät kaikkien piilotettujen kerrosten tilat ja voit tutkia suoria yhteyksiä näiden tilojen palauttamiseen. Ja näin tapahtuu: jos aloitat satunnaisilla yhteyksillä ja yrität vuorotellen käyttää molempia vaiheita, kaikki muuttuu. Jotta voit työskennellä hyvin, sinun täytyy kokeilla eri vaihtoehtoja, mutta se toimii.

Entä muut kaksi teoriaa? Meillä on jäljellä vain kahdeksan minuuttia, mielestäni minulla ei ole aikaa kysyä kaikesta.

Anna minulle toinen tunti, ja kerron teille kahdesta muusta.

Puhutaan siitä, mitä seuraavaksi tulee. Missä opiskelusi ovat? Mitä ongelmia yrität ratkaista nyt?

Lopulta on tehtävä jotainmitä työtä ei ole vielä valmis. Luulen, että voin työskennellä sellaisenaan, jota en koskaan pääse loppuun, nimeltään kapseleiksi, teoria siitä, miten visuaalinen havainto suoritetaan jälleenrakennuksen avulla ja miten tiedot lähetetään oikeaan paikkaan. Kaksi tärkeintä motivoivaa tekijää oli se, että tavanomaisissa hermoverkoissa tiedot, aktiivisuus kerroksessa menevät automaattisesti jonnekin ja et tee päätöksiä siitä, mistä lähetät. Kapseleiden ajatuksena oli tehdä päätöksiä siitä, mistä tiedot lähetetään.

Nyt, kun aloin työskennellä kapseleilla, Googlen älykkäät ihmiset keksivät muuntajat, jotka tekevät samoin. He päättävät, mistä tiedot lähetetään, ja tämä on suuri voitto.

Ensi vuonna puhumme taas keskustelemaan unelmien numeroista kolmesta ja neljästä.

Rekisteröi keskustelumme Telegramsissa, jotta et menetä.

Artikkelissa käytetään Maria Menshikovan kuvauksia.