DeepMind A.I.ロボットと人間の声のギャップを埋める

$config[ads_kvadrat] not found
Anonim

人工知能はちょうどロボットの声がはるかに現実的に聞こえるようにしました。

DeepMindは、以前はA.Iのパワーを実証していました。 3月に囲碁で人間のプレーヤーを倒し、7月に半分にその電力代を切ることによって、今は音声合成に焦点を合わせています。

グーグルの親会社Alphabetの一員であるA.I研究グループは今朝、WaveNetと呼ばれる新しい技術を開発し、それを使って以前よりも正確に音声、音楽、その他の音を生成することができることを明らかにした。

DeepMindは、既存の音声合成方法の多くは、「短い音声断片の非常に大きなデータベースを単一のスピーカーから録音してから、完全な発話を形成するために再結合する」ことに頼っていると説明しています。よりリアルな声と音を創り出すこと。

つまり、WaveNetは、完全な音節や単語全体を使用するのではなく、人間が話すときに生成される個々のサウンドを処理しています。これらのサウンドは、DeepMindが「複雑でリアルなサウンドのオーディオを生成するのに不可欠」であることをマシンで発見した「計算コストの高い」プロセスを経て実行されます。

これらすべての追加作業の結果、米国英語と中国語の標準中国語の合成音声が50%改善されました。これが、今日の一般的なパラメトリック音声合成を使用して生成された音声の例です。これは、この音声合成方法がどのように欠けているかを示すためにDeepMindによって使用されています。

これがWaveNetによって生成された同じ文の例です。

企業が自然言語のインターフェースに対する取り組みを継続するにつれて、より現実的な反応を提供することがますます重要になるでしょう。 WaveNetはその問題を解決するのに役立ちます。

$config[ads_kvadrat] not found