私は、オーディオストリームからMFCC機能を抽出する必要があるプロジェクトで作業しています。このプロジェクトは主に分類で構成されていますが、私たちのデータセットを拡張する目的で、私たちが分類に興味のある音の部分を分離するための検出アルゴリズムに取り組んでいます。MFCCとデルタ係数を使用すると、Log Likelihoodが奇妙になる理由
私は別の表現を試していますが、データの性質上(詳細についてはお伝えしたいと思いますが、私が働いている教授がそれを私的に保つことを好むでしょう)、私はデルタ係数MFCC係数の上に役立つだろう。
私は、40個のデルタ係数と共に40個のMFCC係数を抽出し、検出用にそれらを使用しています。興味のあるオーディオストリームを中心とした40ミリ秒のウィンドウで構成された一連のトレーニングデータがあります。そのデータでGMMをトレーニングしています。
テスト(とその実際の使用例)では、長いオーディオストリーム(2秒程度)を一連のMFCCフレームに分割しました。各フレームの対数尤度を抽出し、対数尤度スコア内のパーセンタイルに基づいて検出を閾値設定し、デルタ係数を使用すると奇妙な結果が得られます。
あなたは底面の4つの数字、ちょうど私の閾値法を可視化するためだったそれらを無視することができます。
私が知りたいのは、デルタ係数を使用すると、デルタを使用しない場合と比較して、対数尤度があまりにも奇妙に動作する理由です。
ご理解いただきありがとうございましたら、ご要望があればお尋ねください。