yleinen

Vastahyökkäykset: miksi hermoverkko on helppo huijata?

Viime vuosina järjestelmänäSyvällinen oppiminen on yleistymässä, tutkijat ovat osoittaneet, kuinka kilpailukykyiset näytteet voivat vaikuttaa mihinkään - yksinkertaisesta kuvaluokittelijasta syöpädiagnostiikkaan - ja jopa luoda hengenvaarallisen tilanteen. Kaikesta vaarastaan ​​huolimatta kilpailukykyiset esimerkit ovat huonosti ymmärrettyjä. Ja tiedemiehet ovat huolissaan: voiko tämä ongelma ratkaista?

Mikä on kontradiktorinen hyökkäys (kiistanalainenhyökkäys)? Tämä on tapa pettää hermoverkkoa siten, että se antaa väärän tuloksen. Niitä käytetään pääasiassa tieteelliseen tutkimukseen mallien vakauden testaamiseksi epätyypillisiin tietoihin. Mutta todellisessa elämässä esimerkki voi olla muutaman pikselin muutos pandan kuvassa niin, että hermoverkko on varma, että kuvassa on gibbon. Vaikka tutkijat lisäävät vain "melua".

Vastahyökkäys: miten huijata hermoverkko?

Uusi työ Massachusettsin teknologiaInstituutti osoittaa mahdollisen tavan ratkaista tämä ongelma. Ratkaistuna voimme luoda paljon luotettavampia syvällisiä oppimismalleja, joita olisi paljon vaikeampi manipuloida haitallisilla tavoilla. Katsokaamme ensin vastustajien näytteiden perusasioita.

Kuten tiedätte, syvällisen oppimisen voimajohtuu erinomaisesta kyvystä tunnistaa kuvissa olevat kuviot (kuviot, kuviot, kuviot, kuviot). Syötä hermoverkko kymmeniä tuhansia eläimille merkittyjä kuvia, ja hän tietää, mitkä mallit liittyvät pandaan ja mitä - apinalla. Sitten hän pystyy käyttämään näitä malleja tunnistamaan uusia eläinkuvia, joita hän ei ole koskaan ennen nähnyt.

Mutta syvät oppimismallit ovat myös hyvin hauraita. Koska kuvantunnistusjärjestelmä perustuu vain pikselikuvioihin eikä käsitteelliseen ymmärrykseen siitä, mitä se näkee, on helppo pettää se, jotta se näyttäisi jotain aivan muuta - vain rikkomalla kuvioita tietyllä tavalla. Klassinen esimerkki: lisää melua panda-kuvaan ja järjestelmä luokittelee sen gibboniksi lähes 100 prosentin varmuudella. Tämä melu on kilpaileva hyökkäys.

Tiedemiehet ovat jo vuosia havainneet tätäilmiö, varsinkin tietokonenäköjärjestelmissä, tietämättä, miten päästä eroon tällaisista haavoittuvuuksista. Itse asiassa viime viikolla tehdyssä, tekoälyn tutkimusta käsittelevässä suuressa konferenssissa (ICLR) esitetty työ kyseenalaistaa kilpailevien hyökkäysten väistämättömyyden. Saattaa tuntua, että riippumatta siitä, kuinka monta kuvaa pandasta syötät kuvaluokittelijalle, on aina sellainen häiriö, jolla järjestelmä rikkoutuu.

Mutta MIT: n uusi työ osoittaa, että meajattelin väärin kilpailuhyökkäyksistä. Sen sijaan, että voisimme kerätä keinoja kerätä enemmän kvalitatiivisia tietoja, jotka ruokkivat järjestelmää, meidän on harkittava perusteellisesti uudelleen lähestymistapaa koulutukseen.

Työ osoittaa tämän paljastamalla pikemminkinmielenkiintoisia ominaisuuksia kilpailukykyisistä esimerkeistä, jotka auttavat meitä ymmärtämään niiden tehokkuuden syyn. Mikä on temppu: satunnainen, näennäisesti melu tai tarroja, jotka sekoittavat hermoverkkoa, sisältävät itse asiassa hyvin tarkkoja, tuskin havaittavia kuvioita, joita visualisointijärjestelmä on oppinut liittämään voimakkaasti tiettyihin kohteisiin. Toisin sanoen kone ei kaatuu gibbonin näkökulmasta, jossa näemme pandan. Itse asiassa hän näkee ihmisille huomaamattomien pikselien säännöllisen järjestelyn, joka ilmestyi paljon useammin kuvissa, joissa oli gibboneja kuin kuvissa, joissa oli pandaa koulutuksen aikana.

Tutkijat ovat osoittaneet tämän kokeilun: ne loivat koirien kuvia sisältävän tietokokonaisuuden, jota kaikki muutettiin siten, että tavallinen kuvaluokittelija tunnisti ne virheellisesti kissoille. Sitten he merkitsivät nämä kuvat “kissoilla” ja käyttivät heitä kouluttamaan uutta hermoverkkoa tyhjästä. Koulutuksen jälkeen he osoittivat hermoverkkoja todellisista kuvista kissoista, ja hän tunnusti ne kaikki kissoille.

Tutkijat ehdottivat, että kussakin sarjassaTiedoissa on olemassa kahdenlaisia ​​korrelaatiotyyppejä: mallit, jotka oikeastaan ​​korreloivat datan merkityksen kanssa, kuten vispilät kuvissa, joissa on kissoja tai turkisvärit, joissa on panda-kuvia, ja kuviot, jotka ovat koulutustiedoissa, mutta jotka eivät koske muita yhteyksiä. Nämä jälkimmäiset "harhaanjohtavat" korrelaatiot, kutsutaan niitä, koska niitä käytetään kilpailevissa hyökkäyksissä. Tunnistusjärjestelmä, joka on koulutettu tunnistamaan ”harhaanjohtavat” kuviot, löytää ne ja uskoo, että se näkee apinan.

Tämä kertoo meille, että jos haluamme poistaa riskinkilpailevaa hyökkäystä, meidän on muutettava tapoja, joilla koulutamme malleja. Tällä hetkellä sallimme hermoverkon valita korrelaatiot, joita se haluaa käyttää kuvassa olevien kohteiden tunnistamiseen. Tämän seurauksena emme voi hallita löytämiään korrelaatioita riippumatta siitä, ovatko ne todellisia tai harhaanjohtavia. Jos sen sijaan kouluttaisimme malleja muistamaan vain todellisia malleja, jotka ovat sidoksissa semanttisiin pikseleihin, teoriassa olisi mahdollista tuottaa syviä oppimisjärjestelmiä, joita ei voida johtaa harhaan.

Kun tutkijat testasivat tätä ajatusta vaintodelliset korrelaatiot hänen mallinsa kouluttamiseen, he itse asiassa heikensivät hänen haavoittuvuuttaan: hän tapasi manipuloinnin vain 50%: lla tapauksista, kun taas todellinen ja väärä korrelaatio koulutettiin 95%: lla tapauksista.

Jos tiivistät, voit puolustaa itseäsi kilpailevilta hyökkäyksiltä. Mutta tarvitsemme enemmän tutkimusta niiden poistamiseksi kokonaan.

Mutta sitten hermoverkkoa ei voi "huijata". Hyvä tai huono? Kerro meille keskusteluissamme.

Facebook -ilmoitus EU: lle! Sinun täytyy kirjautua sisään nähdäksesi ja julkaistaksesi FB -kommentteja!