私はFFTに変換した2つの100%同一のWAVEファイルを持っています。それらを重ねると、私は完璧なマッチを得る。FFTフレームの整列
しかし、データのいずれかの先頭で非フレームサイズのチャンクを切り取った場合、FFTは一致しません(末尾から揃えられます)。
これは、フレーム内にどのような周波数が含まれているのかと推測しています。周波数が2つのフレームに分割されている場合、周波数が1つのフレームに集中している場合と比較して、両方で低いエネルギーで表示されます。
この影響をどのように補正/バイパスできますか?
FFTは入力データの変換された表現に過ぎません。入力データを変更すると、変換されたデータ表現が変更されます。多分あなたが達成しようとしていることをあなたが説明した方がいいでしょうか? –
私は本当に音を比較しようとしています。そして、「あなたはできません」とは、私がこれを解決する方法ではありませんが、その答えが出る前にその回答を得ることは時々あります。 :) –
あなたは*の機能*を理解する必要があります。音楽は時変*です。例えばあなたのような方法で曲を特徴づけたい場合。 Shazamは、FFTを取るだけでなく、曲の中の*情報*の総量を実際に減らすことができますので、もう少し作業をする必要があります。できるだけ少ないバイトで曲を特徴づけるものへの情報の量を減らすというスマートな方法を見つける必要があります。さまざまな圧縮レベルなどがあります。 –