私の最終年度のプロジェクトでは、私は犬/樹皮/鳥の音をリアルタイムで(サウンドクリップを録音することによって)特定しようとしています。私はオーディオ機能としてMFCCを使用しています。最初は、jAudioライブラリを使用してサウンドクリップから12個のMFCCベクトルを抽出しました。 今、私は機械学習アルゴリズムを訓練しようとしています(アルゴリズムを決定していない瞬間には、おそらくSVMです)。サウンドクリップのサイズは約3秒です。このプロセスに関するいくつかの情報を明確にする必要があります。彼らは、あるMFCC係数ベクトルを使用して機械学習アルゴリズムをトレーニングする方法は?
iは、フレームベースの別MFCC(フレームあたり12) かまたは全体のクリップベースの別MFCC(サウンドクリップあたり12)を使用して、このアルゴリズムを訓練する必要がありますか?
アルゴリズムを訓練するには、12個のMFCCをすべて12個の異なる属性と考えるか、12個のMFCCを1つの属性として考える必要がありますか?
これらの別MFCCは、任意の助けが本当にこれらの問題を克服するために理解されるであろう
-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212
、クリップの全体的な別MFCCです。私はGoogleで良い助けを見つけることができませんでした。 :)
可能であれば、あなたのコードを共有してもらえますか?私は同様のことに取り組んでいます。 –