プロンプト後に文章を繰り返すように求められるシステムがあります。 HTK
〜force-align
を使用して、(文章の)事前定義された単語レベルのラベルファイルにユーザー音声の文章を使用して、時間的に調整された電話レベルファイルを取得します。 HMMは大量のデータを訓練しており、非常に正確な時刻合わせファイルをHVite
としています。私の問題は、ユーザがでない場合、正確に話さなければなりません。私は例で説明しましょう:これは非常にGOOD DAY IS
:(利用者に知られている)話される必要があるターゲットセンテンスの音声認識における強制的な位置合わせの問題 - HTK
単語レベルのラベルファイルを。
ユーザーは(ケース1)と言っています:これは非常に良い日です。
この場合、ユーザーは全く同じ文章を繰り返しています。時間を揃えたファイルは非常に正確で、すべてうまくいきます。ユーザーは(ケース2)と言う:これは良い日です。
この場合、上記のようにワードレベルのラベルファイルを使用して強制的に配置が行われます。得られた時間的に整列されたファイルは、ユーザが一度も話していない単語(例えば、元の文に存在するVERYなど)を表示する。
HTK
にはこれを検出し、おそらくこれを避ける方法はありますか?
解決策の1つは、スピーチ認識(それ自体が非常に難しい問題であり、無限のボキャブを持つ必要があるため)を行うフロントエンドのプリプロセッサのようなものであり、ユーザーが話した内容が間違っている。
HTK
には、これを実行できるツール/コマンドラインオプションがありますか?
P .:詳細が必要な場合はお知らせください。
おかげで、
スリラム
ありがとうございました!私は単純な文法(正確な文で構成)、wdnet(文法から)を構築し、次にユーザーの文からの結果を見て、単純な単語スポッティング実験を試みました。マッチしたトレーニングとテストのデータではうまくいきますが、私は陸線/モバイルデータをクリーン(マイク)データでトレーニングされたhmmと合わせようとするとあまりうまくやっていません。私はそれについてここで別の質問をしました:http://stackoverflow.com/questions/6871786/converting-from-one-mfcc-type-to-another-htk見てください..ありがとう! – Sriram