私は、mfccと隠れマルコフモデルを使用した音声認識のための概念証明システムを開発しました。既知の音でシステムをテストすると有望な結果が得られます。未知の音が入力されたときにシステムに最も近い一致が返ってきますが、スコアはそれが不明な音であることを究明するためにはそれほど顕著ではありません。例:隠れマルコフモデルの閾値処理
私は3つの隠れマルコフモデルウォータータップから出てくる水と机の上をノックするためのもの。それから私は目に見えないデータ上でそれらをテストし、次の結果を得る:
ここinput: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
入力は不明音ですが、しきい値/ごみフィルタリングのためのシステムが存在しないとして、それはまだ最も近いものを返します。
OOV(ボキャブラリ)の音を出すキーワードでは、ガベージやフィラーモデルを使用してサウンドをフィルタリングすることができますが、これは未知の単語の有限集合を使用して訓練されています私はシステムが録音するかもしれないすべての音を知りません。
同様の問題は、音声認識システムでどのように解決されますか?偽陽性を避けるために私の問題を解決するにはどうすればよいですか?
これはCross Validatedに移動する必要があります。 – ziggystar
私はこれがCross Validatedのより多くの(そしてより良い修飾された)注意を得ることに同意します。悲しいことに、バットシグナル(別名「十分な許可を得た十分な眼球」)が消されているように見えるので、Radekはそこに置く必要があります。 (「所属」には、CVのオプションや、所属先を手動で指定するオプションはありません。 – Godeke