La technologie

Le réseau de neurones a été enseigné à «animer» des portraits basés sur une seule image statique.

Spécialistes russes du Centre for ArtificialL'intelligence Samsung AI Centre-Moscou, en collaboration avec des ingénieurs de l'Institut des sciences et technologies de Skolkovo, a mis au point un système capable de créer des images animées réalistes du visage de personnes basées sur quelques cadres humains statiques. Habituellement, dans ce cas, l’utilisation de grandes bases de données d’images est nécessaire, mais dans l’exemple présenté par les développeurs, le système a été formé pour créer une image animée du visage d’une personne à partir de huit cadres statiques seulement, et parfois suffisants. Plus de détails sur le développement sont donnés dans un article publié dans le référentiel en ligne d’ArXiv.org.

En règle générale, reproduire photo-réalisteLe module personnalisé du visage d’une personne est plutôt difficile en raison de la grande complexité photométrique, géométrique et cinématique de la reproduction d’une tête humaine. Cela s'explique non seulement par la complexité de la modélisation du visage dans son ensemble (il existe un grand nombre d'approches de modélisation pour cela), mais également par la complexité de la modélisation de certaines caractéristiques: cavité buccale, cheveux, etc. Le deuxième facteur qui complique les choses est notre prédisposition à attraper même des défauts mineurs dans le modèle fini de têtes humaines. Cette faible tolérance aux erreurs de modélisation explique la prévalence actuelle des avatars non photoréalistes utilisés dans les groupes de discussion.

Selon les auteurs, le système, appeléFewshot learning est capable de créer des modèles très réalistes de têtes parlantes et même des portraits. Les algorithmes produisent une synthèse de l'image de la tête de la même personne avec les lignes du visage du repère, extraites d'un autre fragment vidéo, ou utilisant les repères du visage d'une autre personne. Les développeurs ont utilisé une vaste base de données vidéo de célébrités comme source de matériel de formation pour le système. Pour obtenir la «tête parlante» la plus précise possible, le système doit utiliser plus de 32 images.

Pour créer des animations plus réalistesFace à leurs images, les développeurs ont utilisé les développements précédents en modélisation générative-compétitive (GAN, où le réseau de neurones réfléchit sur les détails de l'image, devenant en fait un artiste), ainsi qu'une approche de méta-apprentissage par machine, où chaque élément du système est formé et conçu pour résoudre un problème particulier.

Méta-apprentissage

Pour gérer des images statiques de la tête des gens eten les transformant en animation, trois réseaux de neurones ont été utilisés: Embedder (réseau d'implémentation), Generator (réseau de génération) et Discriminator (réseau de discriminateur). Le premier sépare les images de la tête (avec des repères de visage approximatifs) en vecteurs d’implémentation contenant des informations indépendantes de la posture, le second réseau utilise les repères de la personne obtenus par le réseau et génère de nouvelles données basées sur celles-ci par le biais d’un ensemble de couches convolutives assurant la stabilité nécessaire tournants, changement d'angle et autres déformations de l'image d'origine du visage. Un discriminateur de réseau est utilisé pour évaluer la qualité et l'authenticité des deux autres réseaux. En conséquence, le système transforme les repères du visage d’une personne en photos personnalisées réalistes.

Les développeurs soulignent que leur systèmeest capable d’initialiser les paramètres du réseau générateur et du réseau discriminateur individuellement pour chaque personne de l’image, de sorte que le processus d’apprentissage peut être basé sur quelques images seulement, ce qui augmente sa vitesse, malgré la nécessité de sélectionner des dizaines de millions de paramètres.

</ p>

Vous pouvez discuter de l'actualité dans notre discussion en ligne.