2016-12-20 11 views
0

隠れマルコフモデルに基づく音声認識プログラムを構築します。残念ながら、私は入力サウンドシーケンスを取得する方法を知らず、うまく動作します。誰でも、サウンドファイルフォーマット(つまり.wav、.mp3など)から値を読み取り、サウンドトラックをC++で分割する一般的なアプローチは何ですか?隠れマルコフモデルに基づく音声認識プログラムの入力

+0

http://en.cppreference.com/w/cpp/links/libs#Audio – macroland

+0

既存のソフトウェアが行っていることを確認することをお勧めします –

答えて

0

一般的なアプローチは、入力音声を一連の特徴ベクトル(通常はMFCC)に変換することです。このプロセスは、一般にCMU Sphinx wikiに記載されており、詳細はHTK Bookに記載されている。また、汎用目的のopenSMILE toolkitを調べて、C++でどのように処理されているかを調べることもできます。