Recherche

Google a créé une base de données contenant des milliers d’enregistrements vocaux synthétisés.

Il semble que dans un avenir proche, la communication humainesera réduit au minimum. Au moins, tout se passe comme ça: ici sur Google, par exemple, ils ont pu collecter une base de données à partir de milliers d'enregistrements de discours en anglais synthétisés, selon un blog d'entreprise. Ainsi, les experts sont un pas de plus pour s'assurer que le système peut reproduire un discours oral, qui sera indiscernable de l'homme.

La synthèse de la parole est nécessaire à la formation de la parolesignal du texte imprimé, et il n'est pas du tout nécessaire que la personne qui enregistre sa voix pour le système parle toutes les phrases entièrement. Pour le modèle final, un échantillon de données représentatif est suffisant - et ensuite, le système lui-même détermine le nombre de phonèmes dont il a besoin pour une synthèse ultérieure.

Pourquoi l'enregistrement de la parole est-il collecté dans une seule grande échelle?Jeu de données? Le fait est que si la synthèse de haute qualité s'avère être entre les mains d'intrus, ceux-ci peuvent utiliser la voix de quelqu'un d'autre à leurs propres fins. Pour éviter cela, les experts de Google ont publié une base de données contenant plusieurs milliers d'extraits de journaux. 68 voix de synthèse différentes ont été utilisées pour la lecture. Cependant, le tableau de données n’est disponible que pour les participants à la vérification automatique du locuteur de la compétition. Ils créent des systèmes qui distinguent automatiquement la parole synthétisée de la parole réelle.

Il y a deux ans, la compagnie Lyrebird de Montréalcréé un synthétiseur de parole basé sur l'IA capable de reproduire n'importe quelle voix. Pour suivre le système, il suffit de quelques secondes pour entendre la voix de la personne requise, à partir de laquelle le fragment sonore sera créé. L'imitation exacte de la voix est possible grâce à l'utilisation de réseaux de neurones basés sur l'intelligence artificielle, travaillant sur les mêmes principes que les réseaux de neurones du cerveau humain. L'intelligence artificielle apprend à reconnaître les caractéristiques de la parole humaine. Ces données sont ensuite utilisées pour synthétiser une voix artificielle.

Certes, il y a des défauts alimentaires: il y a des problèmes d'intelligibilité de la parole, il y a des "artefacts vocaux" et quelques autres signes indiquant que les mots sont prononcés par la machine.

N'oubliez pas de vous abonner à notre fil d'actualités.