リサーチ

グーグルは何千もの合成音声記録のデータベースを作成した。

近い将来、ヒューマンコミュニケーションは最小限に抑えられます。会社のブログによると、少なくともここで、Googleは何千もの合成された英語のスピーチの記録からデータベースを収集することができました。したがって、専門家は、システムが口頭の発話を再現できることを保証することにさらにもう一歩近づきます。

音声合成は音声の形成に必要であるシステムのために彼の声を録音する人がすべてのフレーズを完全に話すことは全く必要ではありません。最終的なモデルでは、代表的なデータサンプルで十分です。それからシステム自体が、さらなる合成に必要な音素数を決定します。

音声録音が単一の大規模に集められた理由データセット?高品質の合成が侵入者の手に渡っていることが判明すれば、彼らは自分自身の利己的な目的のために他人の声を使うことができるというのが事実です。これを防ぐために、Googleの専門家は新聞からの数千の抜粋のデータベースを公開しました。 68種類の合成音声が読み上げに使用されました。ただし、データ配列は、コンペティション自動スピーカー認証の参加者のみが利用できます。彼らは、合成音声と実際の音声を自動的に区別するシステムを開発しています。

2年前、モントリオールのLyrebird社あらゆる音声を再生できるAIベースの音声合成装置を開発しました。システムに従うためには、必要な人の声を音声で聞くのに数秒しかかからず、それに基づいて音声の断片が作成されます。人間の脳のニューラルネットワークと同じ原理で動作する人工知能に基づくニューラルネットワークを使用することで、音声の正確な模倣が可能です。 AIは、人間の音声の特性を認識することを学び、これらのデータはすでに人工音声の合成に使用されています。

確かに、いくつかの欠点があります:話されたスピーチの了解度に問題がある、「音声アーチファクト」、および単語が機械によって発音されていることを示すその他の兆候があります。

私たちのニュースフィードを購読することを忘れないでください。