0

スペイン語の音響モデルとJSGF文法で音声認識にpocketsphinxを使用しています。Pocketsphinx - オーディオの前処理が必要/推奨ですか?

しかし、少なくとも私の耳には、完全に分かりやすいような音で誤った認識結果が出ています(背景ノイズ、サンプリング周波数、音響モデルパラメータなどによるビット深度などはあまりありません)。

また、正しく認識されていないこのオーディオは、正しく認識されているものと大きく異なるようには見えません(実際には私にとってはほとんど同じです)。

私は、オーディオには認識するのが難しく、おそらくノイズ周波数やフィルタリングが必要なものがあると推測しています。 (背景雑音、「ポップ」音声、人の声の帯域外の周波数など)

要するに、pocketsphinxがすでに何かをしているかどうか知っていますか?もしそうでなければ、音声認識結果を改善するために、オーディオファイルに適用する練習フィルタ/変換/等

ありがとうございます!

+0

私はこの質問に答えることはできませんが、ここにXYの問題があるように見えます:http://meta.stackexchange.com/questions/66377/what-is-the-xy-problemコードを共有しないであなたが必要とするものが前処理かどこかにあなたのコードに誤りがあるかどうか誰にでも話すことは不可能です。コードを共有し、MVCEを最適に提供してください:http://stackoverflow.com/help/mcve – bodangly

+0

@bodangly私は理解していますが、私はpocketsphinxを使用しています。これは標準で非常に使用されているライブラリです。だから、私の質問は、内部の知識を持つ他のポケットフィックスのユーザーや開発者に向けられています。 (これまでのところ、pocketsphinxへのAPI呼び出し以外は何もコーディングしていないことを意味しています。 – jotadepicas

+1

PocketSphinxコードの内部を計測して、異なる出力決定の原因が何であるかを正確に判断する必要があります。 – hotpaw2

答えて

1

いいえ、前処理は、通常、音声認識の精度には非常に有害です。

現代の音声認識アルゴリズムは、わずかな前処理によっても結果がはるかに悪化する可能性があります。音声認識機能はコンピュータより優れているため、耳で簡単に区別することはできません。自然さや単純なmp3の圧縮/解凍を改善するために追加されたわずかなエコーのようなものは、精度を大幅に低下させる可能性があります。

解決策は、認識したい同じオーディオからモデルを訓練することです。たとえば、クリーンなものではなくmp3圧縮解除されたオーディオでトレーニングします。デフォルトのモデルはクリーンなオーディオで訓練されているため、サウンドの変更にあまり堅牢ではありません。このようなマルチスタイルのトレーニングは、トレーニングデータを非常に大きくするので、それ自体の欠点があります。

関連する問題