изследване

Google създаде база данни от хиляди синтезирани речеви записи.

Изглежда, че в близко бъдеще човешката комуникацияще бъдат сведени до минимум. Поне всичко се стига до следното: тук, например, Google успя да събере база данни от хиляди записи на синтезирана английска реч, според блоговете на компанията. По този начин експертите са една стъпка по-близо до гарантирането, че системата може да възпроизведе устна реч, която да бъде неразличима от човешката.

За формирането на речта е необходим синтез на речсигнала от отпечатания текст и изобщо не е необходимо човекът, който записва гласа си за системата, да говори изцяло всички фрази. За крайния модел е достатъчна представителна извадка от данни - и тогава самата система определя колко фонеми се нуждае за по-нататъшен синтез.

Защо запис на реч, събрани в един голям мащабнабор от данни? Факт е, че ако висококачественият синтез е в ръцете на натрапници, те могат да използват чужд глас за собствените си егоистични цели. За да се предотврати това, експертите на Google публикуваха база данни от няколко хиляди извадки от вестници. За четене са използвани 68 различни синтезирани гласа. Въпреки това, докато масивът от данни е достъпен само за участниците в конкурса Автоматична проверка на говорещия. Те създават системи, които автоматично разграничават синтезираната реч от реалната реч.

Преди две години, компанията Lyrebird от Монреалсъздава речев синтезатор на базата на ИИ, способен да възпроизвежда всеки глас. За да следвате системата, отнема само няколко секунди, за да се чуе гласът на необходимия човек, въз основа на който ще бъде създаден звуковия фрагмент. Точната имитация на гласа е възможна чрез използването на невронни мрежи, основани на изкуствен интелект, които работят на същите принципи като невронните мрежи на човешкия мозък. AI се научава да разпознава характеристиките на човешката реч, а след това тези данни вече се използват за синтезиране на изкуствен глас.

Вярно е, че има недостиг на ядене: има проблеми с разбираемостта на говоримата реч, има "гласови артефакти" и някои други признаци, показващи, че думите се произнасят от машината.

Не забравяйте да се абонирате за нашия информационен канал.