Technology

Новий голосовий перекладач Google зберігає інтонацію і голос вихідного мови

Google представила нову експериментальнунейросеть Translatotron, здатну безпосередньо переводити мова на іншу мову, не використовуючи її текстове представлення, і зберігати голосові дані і темп промови говорить, повідомляється в блозі компанії. Система з довгої короткостроковою пам'яттю здатна приймати голосове введення і обробляти його як спектрограму, а потім генерувати на цій основі нову спектограмму на цільовому мовою. При певних умовах це дозволить збільшити не тільки швидкість перекладу, але і його точність. З більш повним описом нової розробки можна ознайомитися в статті, опублікованій в онлайн-репозиторії наукових статей arXiv.org.

«Translatotron - це перша наскрізна модель,яка може безпосередньо переводити мова з однієї мови на мову на іншій мові, зберігаючи вихідні особливості мови джерела », - повідомляє компанія в своєму офіційному блозі.

У Google відзначають, що більшість сучаснихсистем машинного перекладу мови побудовані на принципі каскадного методу, коли завдання розділяється на кілька простіших задач. В рамках першої відбувається автоматичне розпізнавання мови. Потім здійснюється машинний переклад з однієї мови на іншу, а після цього готовий перекладений текст перетворюється назад в мова, яка практично завжди відрізняється голосом від вихідного носія.

Каскадна система довела свою ефективність іпрактичність, і використовується в більшості систем переказу, включаючи Google. Однак фахівці Google в області ІІ вважають, що дана система не ідеальна. На кожному етапі вирішення проблеми можуть виникати помилки, що в цілому знижує якість готового результату. У Google упевнені, що наскрізна модель перекладу може перевершити каскадну, видаливши середню частину зачаді, де мова спочатку перекладається в текст.

Як пояснюють в Google, каскадний принцип перекладузовсім не схожий на те, як люди, які знають кілька мов, подумки здійснюють переклад мови з однієї мови на іншу. Як саме це працює - описати досить складно, однак перекладачі навряд чи погодяться з тим, що вони спочатку розбивають текст в голові, потім його подумки візуалізують, переводячи його на мову перекладу, а потім просто зараховують готовий переклад.

Спектрограми вихідної мови і перекладеної мови. Якість самого перекладу, слід визнати, не найкраще, але звучить він природніше

Імітація когнітивних здібностей людиниє одним з принципів машинного навчання. Розробники Translatotron вирішили використовувати в якості вхідних даних для перекладу спектрограми (зображення, що показують залежність спектральної щільності потужності сигналу від часу) мови джерела і генерувати на їх основі нові спектрограми на мові перекладу. Такий підхід разюче відрізняється від каскадного методу перекладу. Дослідники відзначають, що як і будь-якому іншому випадку нова система має свої недоліки і переваги.

Одна з переваг наскрізного методу перекладуполягає в тому, що незважаючи на свою складність, цей процес одностадійний, а не багатокроковий. Таким чином, при наявності достатньої обчислювальної потужності Translatotron здатний виконувати переклад швидше. Але ще більш важливо те, що система зберігає характер і особливості вихідної мови в перекладі, голосові дані і темп промови говорить, а не відтворює переклад нейтральним синтетичним голосом.

Ті, хто розуміє в лінгвістиці, а також ті, хтозаймається технологіями синтезу мови напевно погодяться, що при перекладі важливо не тільки те, що говорить людина, але і як він це говорить. Зміна експресії вихідної мови в мовленні перекладу може кардинальним чином змінювати зміст сказаного. З прикладами роботи Translatotron можна ознайомитися, перейшовши за цим посиланням. Тільки не звертайте увагу на якість самого перекладу, важливіше передача інтонації.

Розробники Translatotron зізнаються, що зачастини точності перекладу система ще не випередила традиційні каскадні системи, але, як і будь-яка модель машинного навчання, з часом вона може покращитися. З огляду на перевагу збереження оригінального голосу мовця навіть в перекладеної мови, подальші дослідження в цій області можуть виявитися корисними для майбутніх систем переказу Google на базі AI.

Обговорити новину можна в нашому Telegram-чаті.