cercetare

Google a creat o bază de date cu mii de înregistrări de vorbire sintetizate.

Se pare că în viitorul apropiat, comunicarea umanăva fi redus la minimum. Cel puțin totul merge la acest lucru: aici, de exemplu, Google a reușit să colecteze o bază de date din mii de înregistrări ale discursului sintetizat în limba engleză, potrivit unui blog al companiei. Astfel, experții sunt încă un pas mai aproape de a asigura că sistemul poate reproduce discursul oral, care nu poate fi distins de om.

Sinteza sintezei este necesară pentru formarea discursuluisemnalul din textul tipărit și nu este deloc necesar ca persoana care înregistrează vocea sa pentru sistem să vorbească în întregime cu toate frazele. Pentru modelul final, este suficientă o mostră reprezentativă de date - și apoi sistemul determină câte foneme are nevoie pentru o sinteză ulterioară.

De ce înregistrarea de vorbire a fost colectată într-o singură scară largădate CCD? Faptul este că, dacă sinteza de înaltă calitate se dovedește a fi în mâinile intrușilor, ei pot folosi vocea altcuiva pentru propriile scopuri egoiste. Pentru a preveni acest lucru, experții Google au publicat o bază de date cu câteva mii de extrase din ziare. Pentru citire au fost folosite 68 de voci diferite sintetizate. Cu toate acestea, în timp ce matricea de date este disponibilă numai pentru participanții la Verificarea automată a difuzoarelor concurenței. Ele creează sisteme care disting automat discursul sintetizat de vorbire reală.

Acum doi ani, compania Lyrebird din Montreala creat un sintetizator de voce bazat pe AI capabil să reproducă orice voce. Pentru a urmări sistemul, este nevoie de doar câteva secunde pentru a transmite vocea persoanei solicitate, pe baza căreia va fi creat fragmentul de sunet. Imitarea exactă a vocii este posibilă prin utilizarea rețelelor neuronale bazate pe inteligența artificială, care lucrează pe aceleași principii ca și rețelele neuronale ale creierului uman. AI învață să recunoască caracteristicile discursului uman, iar apoi aceste date sunt deja folosite pentru a sintetiza o voce artificială.

Adevărat, există unele dezavantaje: există probleme cu inteligibilitatea discursului vorbit, există "artefacte voce" și alte semne care indică faptul că cuvintele sunt pronunțate de mașină.

Nu uitați să vă abonați la fluxul de știri.

Notificare Facebook pentru UE! Trebuie să vă autentificați pentru a vizualiza și posta comentarii FB!