2011-09-15 11 views
10

私のアプリでは音声認識に開かれた耳を使用しています。大きな懸念は精度です。静かな環境では約50%の精度がありますが、騒がしい環境では状況は悪化します。ほとんど何も正しく認識されません。私は現在約300語の辞書ファイルを使用しています。正確さを向上させるために私が探すべき分野は何ですか?今まで私はこれを微調整していません。開かれた耳を音声認識に使用している間の精度は非常に低い

答えて

17

音声認識アプリケーションの設計では、音響モデル、文法、音声辞書などの音声認識の基本概念を理解する必要があります。 CMUSphinxのチュートリアルから詳細を学ぶことができますhttp://cmusphinx.sourceforge.net/wiki/tutorial

不正確さは音声アプリケーション開発の通常の状態です。それを改善してアプリケーションを有用にするプロセスがあります。あなたは語彙サイズはと遊ぶのが

  • トライを認識し、現在の精度を測定するための音声データベースを作成し、その後ろに問題を理解しようとしている

    1. コレクトの音声サンプル:プロセスは以下のとおりです。さまざまな音声プロンプト間の分離を改善するためです。たとえば、10コマンドのボキャブラリは、300コマンドのボキャブラリよりも認識しやすくなります。

    2. 認識するバリアントの数が少なく、人の回答が簡単であるようにアプリケーションを設計します。 このアクティビティはVUI(音声ユーザーインターフェイスデザイン)と呼ばれ、数多くの素晴らしい書籍やブログ記事を含む非常に大きな領域です。ここにいくつかの詳細があります:http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765

    3. アプリケーションのアコースティック部分を改善してみてください。あなたのスピーチに合うように辞書を修正してください。音響特性に合わせて音響モデルを適応させます。音響モデルの適応プロセスの説明については、http://cmusphinx.sourceforge.net/wiki/tutorialadaptを参照してください。

  • +0

    answer.Iのおかげであなたはmentioned.Thereは、しかし、私は語彙サイズと
    1.Playingの明確化を必要とするいくつかある4点についていくつかの研究は、アプリ以来、私のためのオプションではありませんでした編集可能な大きな単語リストを理解する必要があります。
    2.私はvuiデザインに関する研究をしていないことを認めます。正確さの問題が深刻化しました。この状況では、私はその分野に突入するようにアドバイスしますか?VUIに関する研究はどれくらい時間がかかりますか? – humblePilgrim

    +0

    Ok.Myの主な目的は、(ノイズの多い)クラスルーム環境でユーザーがポケンした単語を再確認することです。ユーザーは自分の選択した単語を辞書に追加することができます。この問題は正確さだけです。ユーザーは世界中のさまざまな地域にいるため、アクセントの問題は大きな問題です。実際のユーザーからオーディオサンプルを入手できるかどうかは疑問です。 – humblePilgrim

    +0

    もちろん、問題はありますが、解決できる可能性があります。アクセントの問題は適応によって解決される。ルームリバーブの問題は、堅牢な機能で解決されます。ノイズは通常、アコースティック・フロントエンドのノイズキャンセルによってフィルタリングされます。あなたがこれに取り組むつもりなら、それはすべて実行可能です。 –

    関連する問題