Technology

Нейросеть навчили «оживляти» портрети на основі всього одного статичного зображення

Російські фахівці з Центру штучногоінтелекту Samsung AI Center-Moscow у співпраці з інженерами з Сколковского інституту науки і технологій розробили систему, здатну створювати реалістичні анімовані зображення облич людей на основі всього декількох статичних кадрів людини. Зазвичай в такому випадку потрібне використання великих баз даних зображень, проте в представленому розробниками прикладі, систему навчили створювати анімоване зображення обличчя людини за все з восьми статичних кадрів, а в деяких випадках виявилося досить і одного. Більш докладно про розробку повідомляється в статті, опублікованій в онлайн-репозиторії ArXiv.org.

Як правило, відтворювати фотореалістичнуперсоналізовану модуль особи людини досить складно через високу фотометрической, геометричній і кінематичної складності відтворення людської голови. Пояснюється це не тільки складністю моделювання особи в цілому (для цього існує велика кількість підходів до моделювання), але також і складністю моделювання певних рис: порожнини рота, волосся і так далі. Другим ускладнює фактором є наша схильність вловлювати навіть незначні недоробки в готової моделі людських голів. Така низька толерантність до помилок моделювання пояснює нинішню поширеність нефотореалістічниє аватарів, що використовуються в телеконференціях.

За словами авторів, система, що отримала назвуFewshot learning, здатна створити дуже реалістичні моделі балакучих голів людей і навіть портретних картин. Алгоритми виробляють синтез зображення голови одного і того ж людини з лініями орієнтира особи, взятих з іншого фрагмента відео, або з використанням орієнтирів особи іншої людини. Як джерело матеріалу для навчання системи розробники використовували велику базу даних відеозображень знаменитостей. Щоб отримати максимально точну «говорить голову», системі необхідно використовувати більше 32 зображень.

Для створення більш реалістичних анімованихзображень осіб розробники використовували попередні напрацювання в генеративно-змагальному моделюванні (GAN, де нейросеть додумує деталі зображення, фактично стаючи художником), а також підхід машинного мета-навчання, де кожен елемент системи навчений і призначений для вирішення якоїсь конкретної задачі.

Схема мета-навчання

Для обробки статичних зображень голів людей іперетворення їх в анімовані використовувалися три нейромережі: Embedder (мережа впровадження), Generator (мережа генерації) і Discriminator (мережа діскрімітатор). Перша розділяє зображення голови (з зразковими лицьовими орієнтирами) на вектори впровадження, які містять незалежну від пози інформацію, друга мережа використовує отримані мережею впровадження орієнтири особи і генерує на їх основі нові даних через набір згортальних шарів, які забезпечують стійкість до змін масштабу, зсувів, поворотам, зміні ракурсу і іншим спотворень вихідного зображення особи. А мережа діскрімінатор використовується для оцінки якості і справжності роботи двох інших мереж. В результаті система перетворює орієнтири особи людини в реалістично виглядають персоналізовані фотографії.

Розробники особливо підкреслюють, що їх системаздатна ініціювати параметри як мережі генератора, так і мережі дискриминатора індивідуально для кожної людини на знімку, тому процес навчання може бути заснований всього на декількох зображеннях, що підвищує його швидкість, не дивлячись на необхідності підбору десятків мільйонів параметрів.

</ P>

Обговорити новину можна в нашому Telegram-чаті.