1
私はcmusphinx opensource APIを使用しています。これは.wavオーディオ形式をテキストに変換し、特定の入力音声言語に言語モデルを使用しています。英語のpocketsphinxオープンソース音声認識APIの精度を向上させるにはどうすればよいですか?
私はcmusphinx opensource APIを使用しています。これは.wavオーディオ形式をテキストに変換し、特定の入力音声言語に言語モデルを使用しています。英語のpocketsphinxオープンソース音声認識APIの精度を向上させるにはどうすればよいですか?
Pocket Sphinxの精度は使用するモデル。より良い結果を得るには、ターゲットユーザーに合わせて音響モデルを訓練してみてください。 独自のモデルを訓練したくない場合は、feat.params
のさまざまなパラメータを-cmninit
のように変更してみてください。
また、recognizer.setKeywordThreshold()
を可能な限り最小限に設定すると、私は好きです。recognizer.setKeywordThreshold(1e-40f)