Google Speech to Textの仕組みは？

私はどのようにGoogleが音声認識APIのテキストを音声に変換するのかを知りたいと思います。Google Speech to Textの仕組みは？

ほとんどすべてのサウンドを保存し、特定の周波数レベルで一致させているか、「A」、「The」、「B」、「A」などの異なるサウンドパターンの音声を分析する、 V "、" D "、" Hello "など、

これも素晴らしいでしょう。ある人が共有できる場合、どのようにオーディオがエンコードされ、どのようにさまざまなサウンドでさまざまなサウンドでフィルタリングすることができるか - 例：

ギター、ドラム、ボイスを再生するサウンドを持つ音楽、 3つの出力でギターサウンドを別々に、ドラムサウンドを別々に、音声を別々に、そしてさらに音声をテキストにデコードします。

大学向けのドキュメントリンクまたはリサーチペーパーはすばらしいでしょう。

おかげ

2016-06-12 John Cargo

、Googleの音声認識はhereに記載されています。それを理解するには、おそらく最初に教科書Automatic Speech Recognition A Deep Learning Approachを読む必要があります。

ギターとドラムの分離は通常Non-Negative Matrix Factorizationで実装されます。

2016-06-12 08:50:08

答えて