1

ニューラルネットワーク層でスペクトログラム変換を学習するのとは対照的に、最近のニューラルネットワーク音声認識システム(https://github.com/SeanNaren/CTCSpeechRecognition)でスペクトログラムを使用する理由は何ですか?なぜ最近のニューラルネットワーク音声認識システムでスペクトログラムを使用するのですか?

+0

プログラミングに関する質問ではありません - http://dsp.stackexchange.comを試してみてください。 –

答えて

3

機能について何か知っている場合は、この情報を学習に頼る代わりに使用すると便利なことがよくあります。

たとえば、音声認識には信号エネルギーのみが重要であり、信号位相は重要ではないことが知られています。そのため、スペクトログラムを使用する方が普通の信号に比べて優先される理由は、重要な情報を使用して重要でないことです。エネルギー計算には四角形が必要で、単層で学習するのは容易ではありません。いくつかの層が必要です。また、特別な非線形性が必要です。

さらに実際には、log-filterbankを使用すると、同じ予測品質でさらにコンパクトな機能が得られます。

位相が重要なケースがあります。その1つは、DIETアルゴリズムのような位相情報に基づいてソースを分けることができる混合ソースの認識です。しかし、そのような問題が音声認識のために考慮されるまで、スペクトログラムが使用される。