Rețeaua neurală a fost învățată să "animeze" portrete pe baza unei singure imagini statice.

Specialiști ruși din Centrul pentru ArtificiiInteligență Samsung AI Center-Moscova, în colaborare cu inginerii de la Institutul de Știință și Tehnologie Skolkovo, a dezvoltat un sistem capabil să creeze imagini animate realiste ale fețelor oamenilor bazate pe doar câteva cadre statice ale unei persoane. De obicei, în acest caz, este necesară utilizarea unor baze de date mari de imagini, dar în exemplul prezentat de dezvoltatori, sistemul a fost instruit să creeze o imagine animată a feței unei persoane de la doar opt cadre statice și, în unele cazuri, era suficientă. Mai multe detalii despre dezvoltare sunt raportate într-un articol publicat în repozitoriul online al ArXiv.org.

De regulă, reproduceți fotografii realisteModulul personalizat al feței unei persoane este destul de dificil datorită complexității fotometrice, geometrice și cinematice ridicate a reproducerii unui cap uman. Acest lucru este explicat nu numai de complexitatea modelării feței în ansamblu (există un număr mare de abordări de modelare a acesteia), dar și de complexitatea modelării anumitor trăsături: cavitatea orală, părul și așa mai departe. Al doilea factor complicator este predispoziția noastră de a prinde chiar și defecte minore în modelul final al capului uman. Această toleranță scăzută la erorile de modelare explică prevalența actuală a avatarelor non-fotorealiste utilizate în grupurile de știri.

Potrivit autorilor, sistemul, numitÎnvățarea Fewshot este capabilă să creeze modele foarte realiste de a vorbi șefii de oameni și chiar imagini portret. Algoritmii produc o sinteză a imaginii capului aceleiași persoane cu liniile de pe fața reperului, luate dintr-un alt fragment video sau folosind repere ale feței unei alte persoane. Dezvoltatorii au folosit o bază de date extensivă video ca o sursă de material de instruire pentru sistem. Pentru a obține cel mai precis "cap de vorbit", sistemul trebuie să utilizeze mai mult de 32 de imagini.

Pentru a crea animații mai realiste(GAN, unde rețeaua neuronală se gândește la detaliile imaginii, devenind de fapt un artist), precum și o abordare meta-învățare a mașinilor, în care fiecare element al sistemului este instruit și conceput pentru a rezolva o problemă particulară.

Metoda de învățare

Pentru a gestiona imagini statice ale capetelor oamenilor șitransformându-le în trei rețele neuronale animate: Embedder (rețea de implementare), Generator (rețea de generare) și Discriminator (rețea discriminatorie). Primul separă imaginile capului (cu repere aproximative facială) în vectori de încorporare care conțin informații independente de postură, a doua rețea utilizează orientările faciale obținute de rețea și generează date noi bazate pe acestea printr-un set de straturi convoluționale care asigură stabilitatea schimbărilor de scară, schimbări de unghi și alte distorsiuni ale imaginii originale a feței. Pentru a evalua calitatea și autenticitatea celorlalte două rețele, este folosit un discriminator de rețea. Ca urmare, sistemul transformă reperele unei persoane într-o fotografie personalizată realistă.

Dezvoltatorii subliniază faptul că sistemul loreste capabil să inițializeze parametrii rețelei de generatoare și a rețelei de discriminare individual pentru fiecare persoană din imagine, astfel încât procesul de învățare se poate baza doar pe câteva imagini, ceea ce mărește viteza, în ciuda necesității de a selecta zeci de milioane de parametri.

</ p>

Poți discuta știrile în chat-ul nostru de telegrame.

Articole asemănătoare