2012-11-30 15 views
5

私はこのガイドをspeech recognitionで読んでいました。音声認識のためには、音響モデル、言語モデル、音声辞書という3つのアイテムが必要です。PocketSphinx pythonと音響モデルの設定は?

Gstreamerを使用してマイクからキャプチャし、8kHz、16ビットPCMオーディオにリサンプリングするこのpython demoで再生したいと考えました。

私は言語モデルと発音辞書を指定することができることを確認し、私は[CMUによって提供]いずれかを使用します。

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/ 

をしかし、私は音響モデルを指定する必要がどこ私は混乱していますか? gstreamerには暗黙的に使用している独自の音響モデルがありますか?私は少し良い結果のために、ここで提供音響モデルを使用するように期待していた。

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/ 

(ハイパーリンクについて私は10未満の担当者と2つの以上のリンクを投稿することはできません申し訳ありませんが)

答えて

3

しかし、私はどこで音響モデルを指定すべきか混乱していますか?

gstreamer要素のhmmプロパティでモデルを指定できます。それはあなたが

asr.set_property('hmm', '/home/user/acoustic_model_folder') 

を使用することができますチュートリアルで

asr.set_property('lm', '/home/user/mylanguagemodel.lm') 

をカバーしています同じようGStreamerには、私は暗黙的に使用している独自の音響モデルを持っていますか?

はい、デフォルトでは分布

から米国英語モデルhub4wsj_sc_8kを使用しています
関連する問題