2017-10-25 19 views
0

私は、オーディオストリームからMFCC機能を抽出する必要があるプロジェクトで作業しています。このプロジェクトは主に分類で構成されていますが、私たちのデータセットを拡張する目的で、私たちが分類に興味のある音の部分を分離するための検出アルゴリズムに取り組んでいます。MFCCとデルタ係数を使用すると、Log Likelihoodが奇妙になる理由

私は別の表現を試していますが、データの性質上(詳細についてはお伝えしたいと思いますが、私が働いている教授がそれを私的に保つことを好むでしょう)、私はデルタ係数MFCC係数の上に役立つだろう。

私は、40個のデルタ係数と共に40個のMFCC係数を抽出し、検出用にそれらを使用しています。興味のあるオーディオストリームを中心とした40ミリ秒のウィンドウで構成された一連のトレーニングデータがあります。そのデータでGMMをトレーニングしています。

テスト(とその実際の使用例)では、長いオーディオストリーム(2秒程度)を一連のMFCCフレームに分割しました。各フレームの対数尤度を抽出し、対数尤度スコア内のパーセンタイルに基づいて検出を閾値設定し、デルタ係数を使用すると奇妙な結果が得られます。

No Delta Coefficients used in feature representations

Delta Coefficients used in feature representation

あなたは底面の4つの数字、ちょうど私の閾値法を可視化するためだったそれらを無視することができます。

私が知りたいのは、デルタ係数を使用すると、デルタを使用しない場合と比較して、対数尤度があまりにも奇妙に動作する理由です。

ご理解いただきありがとうございましたら、ご要望があればお尋ねください。

答えて

0

信号の振幅を見てください。 Delta Coeffsの例は、Non-deltaと比較して不審な点が少ない。たぶんそれはちょうどノイズですか?

正確に同じ録音でデルタの有無にかかわらずシステムを実行してください。デバッグが簡単になります。

MFCCのスペクトログラムのような視覚化をデルタで付けることもできます。

関連する問題