Research

Google створила базу з тисячею записів синтезованої мови

Схоже, в найближчому майбутньому людське спілкуваннябуде зведено до мінімуму. По крайней мене все до цього йде: ось в Google, наприклад, змогли зібрати базу даних з тисячею записів синтезованої англійської мови, повідомляється в блозі компанії. Таким чином фахівці ще на один крок наблизилися до того, щоб система могла відтворювати усне мовлення, яка буде відрізнити від людської.

Синтез мови потрібен для формування мовногосигналу з друкованого тексту, причому зовсім необов'язково, щоб людина, яка записує свій голос для системи, говорив все фрази цілком. Для кінцевої моделі досить репрезентативної вибірки даних - а далі система сама визначає, скільки фонем їй необхідно для подальшого синтезу.

Навіщо запису мови зібрали в єдиний масштабнийдатасета? Справа в тому, що якщо якісний синтез виявиться в руках зловмисників, вони можуть використовувати чужий голос у власних корисливих цілях. Щоб цього не допустити, експерти Google опублікували базу з кілька тисяч уривків з газет. Для читання використовувалося 68 різних синтезованих голосів. Правда, поки масив даних доступний тільки для учасників конкурсу Automatic Speaker Verification. Вони займаються створенням систем, що дозволяють автоматично відрізнити синтезовану мову від реальної.

Два роки тому компанія Lyrebird з Монреалястворила мовної синтезатор на основі ІІ, здатний відтворити будь-який голос. Для наслідування голосу системі досить лише кількох секунд аудіозапису голосу необхідного людини, на основі яких і буде створений звуковий фрагмент. Точне наслідування голосу можливо завдяки використанню нейронних мереж на основі штучного інтелекту, які працюють за тими ж принципами, що нейронні мережі людського мозку. ІІ вчиться розпізнавати особливості мови людини, а потім ці дані вже використовуються для синтезу штучного голосу.

Правда, і там їсть недоліки: є проблеми з розбірливість усного мовлення, присутні «голосові артефакти» і деякі інші ознаки, що вказують на те, що слова вимовляє машина.

Не забудьте підписатися на наш канал з новинами.