kutatás

A Google több ezer szintetizált beszédrekordot tartalmazó adatbázist hozott létre.

Úgy tűnik, hogy a közeljövőben az emberi kommunikációminimálisra csökken. Legalábbis ez mindent megtesznek: itt például a Google képes volt összegyűjteni egy adatbázist a szintetizált angol beszéd több ezer feljegyzéséből, egy vállalati blog szerint. Így a szakértők még egy lépéssel közelebb állnak annak biztosításához, hogy a rendszer reprodukálja a szóbeli beszédet, amely megkülönböztethetetlen lesz az embertől.

A beszédszintézis szükséges a beszéd kialakításáhozjel a nyomtatott szövegből, és egyáltalán nem szükséges, hogy az a személy, aki a hangját rögzíti a rendszernek, minden mondatot teljes mértékben beszél. A végső modell esetében egy reprezentatív adatminta elegendő - majd a rendszer maga határozza meg, hogy hány fonémát igényel a további szintézishez.

Miért gyűjtöttük össze a beszédfelvételt egyetlen nagyszabásúadatbázisba? Az a tény, hogy ha a magas színvonalú szintézis kiderül, hogy a behatolók kezében van, ők is használhatják valaki más hangját saját önző célokra. Ennek megakadályozása érdekében a Google szakértői több ezer részletből álló adatbázist publikáltak az újságokból. 68 különböző szintetizált hangot használtunk az olvasáshoz. Azonban, míg az adatcsomag csak a Verseny automatikus hangszóróellenőrzés résztvevői számára elérhető. Olyan rendszereket hoznak létre, amelyek automatikusan megkülönböztetik a szintetizált beszédet a valódi beszédtől.

Két évvel ezelőtt a Montreal-i Lyrebird céglétrehozott egy AI alapú beszédszintetizátort, amely bármilyen hangot képes reprodukálni. A rendszer követéséhez csak néhány másodpercre van szükség a szükséges személy hangjának hangzásához, amely alapján a hangfragmens létrejön. A hang pontos utánzása a mesterséges intelligencián alapuló neurális hálózatok használatával lehetséges, ugyanazokkal az elvekkel, mint az emberi agy neurális hálózatai. Az AI megtanulja felismerni az emberi beszéd jellemzőit, majd ezeket az adatokat már mesterséges hang szintézisére használják.

Igaz, van néhány hátránya: vannak problémák a beszéd beszédének érthetőségével, vannak „hangtermékek” és néhány más jel, ami azt jelzi, hogy a szavak a gépet kifejezik.

Ne felejtse el feliratkozni hírcsatornánkra.