технология

Новият Google Voice Translator запазва интонацията и гласа на изходния език

Google въведе нов експерименталенНевронната мрежа на Translatotron, способна директно да превежда речта на друг език, без да използва нейното текстово представяне, и запазва гласови данни и темпото на речта на говорещия, според блоговете на компанията. Система с дълга краткосрочна памет може да приема гласови входове и да я обработва като спектрограма и след това генерира на тази основа нова спектрограма на целевия език. При определени условия това ще увеличи не само скоростта на превода, но и неговата точност. По-пълно описание на новото развитие може да се намери в статия, публикувана в онлайн хранилището на научни статии arXiv.org.

„Translatotron е първият преходен моделкоито могат директно да преведат речта от един език на реч на друг език, като същевременно запазят оригиналните характеристики на речта на източника, ”заяви компанията в официалния си блог.

Google отбелязва, че най-модернитеСистемите за превод на машинна реч са изградени на принципа на каскадния метод, когато една задача е разделена на няколко по-прости задачи. В рамките на първата се извършва автоматично разпознаване на реч. След това се извършва машинен превод от един език на друг и след това подготвеният преведен текст се връща обратно в речта, която почти винаги се различава в гласа от оригиналния носител.

Каскадната система е доказала своята ефективност ипрактичност и се използва в повечето системи за превод, включително Google. Въпреки това, експерти на Google в областта на ИИ вярват, че тази система не е перфектна. На всеки етап от решаването на проблема могат да възникнат грешки, които като цяло намаляват качеството на крайния резултат. Google е убеден, че моделът за прехвърляне може да превиши каскадата, като премахне средната част на превода, където първо се превежда в текст.

Както е обяснено в Google, каскадният принцип на преводаИзобщо не прилича на начина, по който хората, които познават няколко езика, мислено превеждат речта от един език на друг. Трудно е да се опише как точно работи, но е малко вероятно преводачите да се съгласят, че първо разчупват текста в главата си, след това го визуализират в съзнанието си, превеждат го на целевия език и след това просто преброяват готовия превод.

Спектрограми на изходния език и преведена реч. Качеството на самия превод, трябва да се признае, не е най-доброто, но звучи по-естествено.

Имитация на човешки познавателни способностие един от принципите на машинното обучение. Разработчиците на Translatotron решават да използват като входни данни за транслацията на спектрограмата (изображенията, показващи зависимостта на спектралната плътност на сигнала от времето) на речта на източника и да генерират на тяхна база нови спектрограми в целевия език. Този подход е много различен от каскадния метод на превод. Изследователите отбелязват, че както всеки друг случай, новата система има своите предимства и недостатъци.

Едно от предимствата на метода на превода от край до крайе, че въпреки своята сложност, този процес е едноетапен, а не многоетапен. По този начин, с достатъчна изчислителна мощност, Translatotron може да превежда по-бързо. Но още по-важно, системата запазва характера и характеристиките на оригиналната реч в превод, гласовите данни и темпото на речта на говорещия, вместо да възпроизвежда превода с неутрален синтетичен глас.

Тези, които разбират лингвистика, както и тези, коитоТой се занимава с технологии за синтез на реч и най-вероятно ще се съгласи, че при превода е важно не само това, което човек казва, но и как го казва. Промяната в изразяването на оригиналната реч в речта за превод може радикално да промени смисъла на казаното. Примери за работа на Translatotron можете да намерите, като кликнете върху тази връзка. Просто не обръщайте внимание на качеството на самия превод, прехвърлянето на интонацията е по-важно.

Разработчиците на Translatotron признават товачасти от точността на системата за превод все още не са изпреварили традиционните каскадни системи, но, както всеки модел на машинно обучение, той може да се подобри с течение на времето. Като се има предвид предимството да се запази гласът на първоначалния говорител дори в преведената реч, по-нататъшни изследвания в тази област могат да бъдат полезни за бъдещите системи за превод на Google, базирани на ИИ.

Можете да обсъдите новините в нашия чат.