Technology

Нейросеть почула голосу людей і намалювала їх портрети

Останнім часом нейронні мережі дивують своїмивміннями - могли б ви десять років тому повірити в те, що комп'ютер зможе «оживляти» портрети Достоєвського і Мерилін Монро? Готуйтеся дивуватися далі, тому що дослідники з Массачусетського технологічного інституту створили нейросеть Speech2Face, яка здатна малювати портрети людей, просто послухавши їх голоси. Технологія поки далека від ідеалу, але її здатність визначати стать, національність і вік людини вражає.

Для навчання нейромережі використовувався набірAVSpeech з мільйоном коротких відеороликів з тисячами говорять людей. Доріжки з відео і звуком розділені, тому система змогла вивчити кожен тип матеріалу максимально докладно. На першому етапі роботи, алгоритм VGG-Face вивчав фрагменти відео та створював портрети фігурують на них людей в анфас і нейтральним виразом обличчя. Інша частина алгоритму вивчала спектрограму голосу і накладала на отримані портрети додаткові зміни - в результаті вийшов приблизний портрет кожного розмовляє людини.

Нейросеть для створення портретів на основі голосу - вже реальність

Якщо порівняти обличчя людини з відео ізапропонований алгоритмом варіант, то можна знайти безліч відмінностей. Втім, дослідники запевняють, що вони з самого початку не хотіли створити максимально схожий портрет людини - на тон і інтонацію людського голосу впливають безліч факторів, тому ідеального результату вони б все одно не отримали. Зате нейронна мережа відмінно справляється з тим, що важливо дослідникам, а саме з точним визначенням статі, національності та віку.

Автори роботи відзначили, що на даний моменталгоритм слабенький при визначенні віку, але вони в силах підвищити точність. Також було виявлено, що алгоритм краще відтворює особи з європейської і азіатської зовнішністю, але це пов'язано тільки з тим, що на навчальних відеороликах було рівну кількість осіб різних національностей.

Навіщо потрібна нейросеть?

Чим же може бути корисна ця технологія вмайбутньому? Як варіант, за допомогою неї коли-небудь може бути створений сервіс, де віртуальний аватар користувача створюється автоматично, на основі його голосу. Нове дослідження також несе велику наукову користь - вивчивши дані, вчені можуть знайти взаємозв'язок між зовнішністю людини і його голосом. Послухати голоси і подивитися на відтворені на їх основі портрети можна на сайті проекту.

Яке застосування такої нейронної мережі можете придумати ви? Своїми сміливими припущеннями діліться в коментарях, і приєднуйтесь до спілкування в нашому Telegram-чаті.