Teknologi

Det neurale netværk blev lært at "animere" portrætter baseret på blot et statisk billede.

Russiske specialister fra Center for KunstigIntelligence Samsung AI Center-Moscow i samarbejde med ingeniører fra Skolkovo Institut for Videnskab og Teknologi udviklede et system, der kunne skabe realistiske animerede billeder af folks ansigter baseret på blot et par statiske rammer af en person. Normalt kræves der i dette tilfælde brug af store databaser med billeder, men i eksemplet fra udviklerne blev systemet uddannet til at skabe et animeret billede af en persons ansigt fra kun otte statiske rammer, og i nogle tilfælde var det nok. Flere detaljer om udviklingen er rapporteret i en artikel, der er offentliggjort i ArXiv.org's online-arkiv.

Som regel reproducerer fotorealistiskeDet personlige modul af en persons ansigt er ret vanskeligt på grund af den høje fotometriske, geometriske og kinematiske kompleksitet af reproduktionen af ​​et menneskeligt hoved. Dette forklares ikke kun af kompleksiteten ved at modellere ansigtet som helhed (der er et stort antal modelleringsmetoder til dette), men også ved kompleksiteten af ​​modellering visse funktioner: mundhule, hår og så videre. Den anden komplicerende faktor er vores forudsætning for at fange selv mindre fejl i den færdige model af menneskelige hoveder. Denne lave tolerance for modelleringsfejl forklarer den nuværende forekomst af ikke-fotorealistiske avatarer, der anvendes i nyhedsgrupper.

Ifølge forfatterne kaldes systemetFewshot learning er i stand til at skabe meget realistiske modeller af talende hoveder af mennesker og endda portrætbilleder. Algoritmerne frembringer en syntese af billedet af hovedet af den samme person med linjerne på landemærkefladen, taget fra et andet videofragment eller ved brug af landemærker i ansigtet af en anden person. Udviklere brugte en omfattende berømthedsvideo database som en kilde til træningsmateriale til systemet. For at få det mest nøjagtige "talende hoved" skal systemet bruge mere end 32 billeder.

At skabe mere realistisk animeretansigtsbilleder brugte udviklere tidligere udviklinger inden for generativ konkurrencedygtig modellering (GAN, hvor det neurale netværk tænker på billeddetaljer, faktisk bliver kunstner) samt en meta-learning-metode, hvor hvert element af systemet er uddannet og designet til at løse et bestemt problem.

Meta-learning-skema

At håndtere statiske billeder af folks hoveder ogat gøre dem til animerede tre neurale netværk blev brugt: Embedder (implementeringsnetværk), generator (generationsnetværk) og diskriminator (diskriminator netværk). Den første adskiller hovedets billeder (med omtrentlige ansigtsmærker) til indlejring af vektorer, der indeholder kropsafhængige oplysninger. Det andet netværk anvender de ansigtsorienteringer, der opnås af netværket, og genererer nye data baseret på dem gennem et sæt fældningslag, der giver stabilitet i skalaændringer, skift, svingninger, vinkelforskydning og andre forvrængninger af det oprindelige billede af ansigtet. En netværksdiskriminator bruges til at vurdere kvaliteten og ægtheden af ​​de to andre netværk. Som et resultat ændrer systemet landets landemærker til realistiske personlige billeder.

Udviklerne understreger, at deres systemer i stand til at initialisere parametrene for både generatornetværket og diskriminatornetværket individuelt for hver person på billedet, så læringsprocessen kan baseres på blot et par billeder, hvilket øger hastigheden på trods af behovet for at vælge flere millioner af parametre.

</ p>

Du kan diskutere nyhederne i vores telegram-chat.