A neurális hálózatot egy statikus kép alapján „megtanulták” a portrék „animálására”.

Orosz szakemberek a Mesterséges KözponttólIntelligencia A Samsung AI Center-Moszkva a Skolkovo Tudományos és Technológiai Intézet mérnökeivel együttműködve olyan rendszert fejlesztett ki, amely az emberek arcainak reális animált képeit képes létrehozni, csak néhány statikus keret alapján. Általában ebben az esetben nagy képadatbázisok használata szükséges, de a fejlesztők által bemutatott példában a rendszert egy nyolc statikus keretből képzett animált kép készítésére képezték, és egyes esetekben elég volt. A fejlesztésről további részletek az ArXiv.org online tárolójában közzétett cikkben találhatók.

Általánosságban elmondható, hogy a fotó-realisztikusAz emberi arc személyre szabott modulja meglehetősen nehéz, mivel az emberi fej nagy fénytani, geometriai és kinematikai komplexitása miatt. Ezt nemcsak az arc egészének modellezésének összetettsége magyarázza (erre számos modellezési megközelítés létezik), hanem az egyes jellemzők modellezésének összetettsége is: szájüreg, haj és így tovább. A második bonyolult tényező az, hogy hajlamosak vagyunk még kisebb hibákat is megfogni az emberi fejek kész modelljében. Ez a modellezési hibák alacsony toleranciája magyarázza a hírcsoportokban használt nem fotorealisztikus avatarok jelenlegi gyakoriságát.

A szerzők szerint a rendszer hívottA Fewshot tanulás képes beszélni az emberek beszélőfejeinek és még portréfotóinak is nagyon reális modelljeit. Az algoritmusok ugyanazon személy fejének képét szintetizálják a tájpont arcvonalával, egy másik videofragmentumból vették fel, vagy egy másik személy arcát használják. A fejlesztők kiterjedt híresség-videó adatbázist használtak a rendszer képzési forrásainak forrásaként. Ahhoz, hogy a legpontosabb „beszédfejet” kapja, a rendszernek több mint 32 képet kell használnia.

Valósághűbb animáció létrehozásaarcképek, a fejlesztők a generatív-versenyképes modellezés korábbi fejlesztéseit használták (GAN, ahol a neurális hálózat a képadatokról gondolkodik, valójában művészévé válik), valamint egy gépi meta-tanulási megközelítésre, ahol a rendszer minden elemét képezik és tervezik egy adott probléma megoldására.

Meta-learning rendszer

Az emberek fejének statikus képeit ésanimált három neurális hálózatot alakítottak ki: Embedder (implementációs hálózat), Generátor (generációs hálózat) és diszkriminátor (diszkriminációs hálózat). Az első elválasztja a fej képeit (hozzávetőleges arcjelzővel) a beágyazó vektorokhoz, amelyek testtartás-független információt tartalmaznak, a második hálózat a hálózat által elért arc-orientációkat használja, és ezek alapján új adatokat állít elő konvolúciós rétegek sorozatán keresztül, amelyek stabilitást biztosítanak a méretarányok, a eltolódások, a változások stabilitása szempontjából. fordulatok, szögváltozás és az arc eredeti képének egyéb torzulása. A két másik hálózat minőségének és hitelességének értékeléséhez hálózati diszkriminátort használnak. Ennek eredményeként a rendszer egy személy arcának tájékozódásait valósághű, személyre szabott fényképekké alakítja.

A fejlesztők hangsúlyozzák, hogy a rendszerükképes mind a generátor hálózat, mind a diszkrimináló hálózat paramétereinek inicializálását minden egyes személy számára a képben, így a tanulási folyamat csak néhány képen alapulhat, ami növeli a sebességét, annak ellenére, hogy több tízmillió paramétert kell kiválasztania.

</ p>

A híreket megvitathatja a Telegram-chat-en.

Kapcsolódó cikkek