スペイン語の音響モデルとJSGF文法で音声認識にpocketsphinxを使用しています。Pocketsphinx - オーディオの前処理が必要/推奨ですか?
しかし、少なくとも私の耳には、完全に分かりやすいような音で誤った認識結果が出ています(背景ノイズ、サンプリング周波数、音響モデルパラメータなどによるビット深度などはあまりありません)。
また、正しく認識されていないこのオーディオは、正しく認識されているものと大きく異なるようには見えません(実際には私にとってはほとんど同じです)。
私は、オーディオには認識するのが難しく、おそらくノイズ周波数やフィルタリングが必要なものがあると推測しています。 (背景雑音、「ポップ」音声、人の声の帯域外の周波数など)
要するに、pocketsphinxがすでに何かをしているかどうか知っていますか?もしそうでなければ、音声認識結果を改善するために、オーディオファイルに適用する練習フィルタ/変換/等
ありがとうございます!
私はこの質問に答えることはできませんが、ここにXYの問題があるように見えます:http://meta.stackexchange.com/questions/66377/what-is-the-xy-problemコードを共有しないであなたが必要とするものが前処理かどこかにあなたのコードに誤りがあるかどうか誰にでも話すことは不可能です。コードを共有し、MVCEを最適に提供してください:http://stackoverflow.com/help/mcve – bodangly
@bodangly私は理解していますが、私はpocketsphinxを使用しています。これは標準で非常に使用されているライブラリです。だから、私の質問は、内部の知識を持つ他のポケットフィックスのユーザーや開発者に向けられています。 (これまでのところ、pocketsphinxへのAPI呼び出し以外は何もコーディングしていないことを意味しています。 – jotadepicas
PocketSphinxコードの内部を計測して、異なる出力決定の原因が何であるかを正確に判断する必要があります。 – hotpaw2