現在、カルディフレームワークにパワースペクトルがどのように格納されているかを理解するのに苦労しています。オーディオファイルのスペクトログラムの値を理解する
私は正常私にthisのようなさまざまなオーディオファイルのためのデータポイントを持つ大規模なファイルを提供します
$cmd JOB=1:$nj $logdir/spect_${name}.JOB.log \
compute-spectrogram-feats --verbose=2 \
scp,p:$logdir/wav_spect_${name}.JOB.scp ark:- \| \
copy-feats --compress=$compress $write_num_frames_opt ark:- \
ark,scp:$specto_dir/raw_spectogram_$name.JOB.ark,$specto_dir/raw_spectogram_$name.JOB.scp
を使用して、いくつかのデータファイルを作成しているように見えます。
問題は、このデータセットをどのように解釈すべきかわからないということです。この前にfftが実行されていることがわかりました。これは良いことだと思います。
上記の出力例は、1秒間のファイルからのものです。
スペクトラムの計算にはすべての標準が使用されているため、サンプル周波数は16 kHz、フレーム長= 25 ms、オーバーラップ= 10 msにする必要があります。 最初のセットのデータポイントの数は25186です。
これらの情報があれば、何らかの方法で出力を解釈できますか?
通常、周波数ビンサイズはF_s/N=bin_size
で抽出できます。ここで、F_s
はサンプル周波数、N
はFFT長です。これは同じですか? 16000/25186 = 0.6 ... Hz/bin?
これを誤って解釈していますか?
すごく涼しい!コードを共有することは可能でしょうか? –
は、プロットを作成するためのコードを共有しています。 –
コードを共有してくれてありがとう:) –