2012-04-29 23 views
4

エンジンが音声ファイル(wav/mp3/etc ..)からフレーズを正常に認識するようにする方法を教えてください。音声ファイルからフレーズを認識する方法

たとえば、音声ファイルと文章のテキストが同じファイルの場合は、音声ファイルに書かれた単語を認識させるようにします。

私はSpeechRecognitionEngineで遊んだりしようとしましたが、今まで成功していませんでした。

これは私が初めて音声認識技術を扱うので、アイデアを高く評価します。

辞書を使用して音声によるテキストの例を見たことがありますが、ここでどのように役立つかわかりません。多分、すべての音声ファイルをテキストに変換して、そのテキストの特定のフレーズを探すだけのことを考えていましたが、それは正しい方法だとは思いません。例えば5時間の音声をテキストに変換するのは理にかなっていないようです。または、特定のフレーズを「辞書」として使用し、音声ファイルでこのアイテムを探すことが考えられます。

+0

ダウングレードの人に感謝...しかし、あなたはあまりにもいくつかの答えで助けることができますか? :) – user990635

+0

私は思っていた方向で質問を少し編集しました...私の心に来たことは、全体の音声をテキストに変換し、単純な検索を実行することでしたが、それは愚かな解決策のようです。 – user990635

答えて

6

長いファイルで特定の単語を探す必要があるようです。この手法は「キーワードスポッティング」と呼ばれ、音声認識とはかなり違って効率的です。 obvioslyあなたはそれの単語を検索するためにファイル全体を転記する必要はありません、あなたはすぐにファイルをスキャンすることができます。 Microsoft Speech Recognitionエンジンでは、キーワードスポッティングのサポートが非常に限られています。

CMUSphinxのようなオープンソースエンジンは、キーワードスポッティングを効率的に実装するために使用できます。詳細についてはhow to implement wake-up listening with pocketsphinxの情報を参照してください。基礎となるアルゴリズムの詳細については

ACOUSTIC KEYWORD SPOTTING IN SPEECH WITH APPLICATIONs TO DATA MINING

0

MSDN資料Getting Started with Speech Recognitionによると、

必要な手順は(記事から)です。作成認識文法のステップに注意してください。この記事では、GrammerBuilderまたはChoicesクラスの使用を提案しています。
- 音声認識を開始します。

音声認識アプリケーションは、通常、次の基本的な操作を実行します。
- 認識文法を作成します。
- 音声認識装置に文法をロードします。
- 音声認識イベント通知の登録。
- 音声認識イベントのハンドラを作成します。

0

あなたはマイクロソフトの音声エンジンを使用してオーディオファイルを変換しようとしている場合は、あなたには、いくつかのケアを使用する必要がありますを参照してください。まず、サポートされているフォーマットはWAV(PCM、ALaw、またはuLawとしてエンコードできます)ですが、ファイルが認識装置でサポートされている形式であることを確認する必要があります。サンプルレートも確認する必要があります。認識装置は固定されたサンプルレートのセットのみをサポートする。サンプルあたりの私のマシン上で、

  • 8ビット
  • 単一チャネルモノうまく機能

  • 第PCMエンコーディング
当たり
  • 22,050サンプル。詳細については、https://stackoverflow.com/a/6203533/90236を参照してください。 audacityのようなツールを使用してWAVファイルを再サンプリングまたは再エンコードする必要があるかもしれません。 https://stackoverflow.com/a/9467044/90236を参照してください。

    開始する簡単な例はSAPI and Windows 7 Problemです。

    最後に(私はいつもこの点を繰り返します。申し訳ありません)Windows .NETでのプログラミング認識についての素晴らしい記事があります。 http://msdn.microsoft.com/en-us/magazine/cc163663.aspxを参照してください。少し古いですが、すばらしい紹介です。