3

私は機械学習を学んでおり、mfccフィーチャサイズがRNN(Recurnt Neural Network)にどのように影響するのか知りたがっていますか?私はMFCCを抽出し、デルタ係数その後、私は次元の配列を取得librosaとmfccフィーチャサイズは再学習ニューラルネットワークにどのように影響するのですか

[13、sound_length]

パイソンとMFCCおよびデルタ係数を抽出するコード:(Y - 音声ファイルデータ、SR - Yの長さ)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) 
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1) 

だから、理論的には、私はこの種のデータと、データn_mfcc = 39とネットワークを訓練したい場合。誰がより良くなり、なぜですか? (他のすべてのハイパーパラメータを無視する)このパラメータがRNNにどのように影響するかについての理論を知りたいだけです。

+1

を参照してください。おそらく隠れマルコフモデル(HMM)の方が重要です。 –

+0

こんにちは@ニカさんはmfccを使用してRNNにフィードできましたか?あなたはコードスニペットを共有することができますか?ありがとう –

答えて

4

MFCCsは、スケール(非線形)スペクトルのDCTの係数です。換言すれば、それらは、メルスペクトルにおける周期的な変化の振幅を捕捉する。音楽分析では、これはしばしば曲のtimbreを記述するために使用されます。係数の指数が低いほど、(メルスペクトルの周期的変化の)周波数が低くなる。

簡単に言えば、通常、下位のインデックス/係数がより重要です。

JPEG画像ファイルフォーマットでも同じことが言えますが、MP3よりも高いDCT係数は、重要ではないと考えられる高い周波数を表すため、破棄されます。

小さい係数を使用すると、小さいRNNを使用できます。しかし、あなたはこれらのより高い周波数に含まれる情報を失います(上記のように、それはしばしば非常に重要とはみなされません)。それはリターンが減少するゲームです。ある時点で係数が増えると、入力が増えるだけですが、必ずしも良い結果になるとは限りません。

AFAIKは、音楽情報検索(MIR)では、通常最初の13係数が使用されます。しかし、私はまた、最初の20を使用して論文を見てきました。

MIRで使用する前に、MFCCを音声認識に使用しました。

は、私はRNNは自分自身でそれらを学ぶことができるはずとして必要です(基本的に、一次誘導体)デルタの特徴とは思わないB. Logan. "Mel frequency cepstral coefficients for music modeling." In International Symposium on Music Information Retrieval (ISMIR 2000), 2000.

それともMcFee, Brian, and Gert RG Lanckriet. "Heterogeneous Embedding for Subjective Artist Similarity." ISMIR 2009, 2009.

+0

これは本当に素敵な答え、特に最初のパラグラフと言いたいだけです! –

+0

ありがとう、@CarlThomé! – hendrik

関連する問題