Iveはこれについて前にsimlar投稿を見つけましたが、何も本当に答えていません。c#AudioFingerprintingとLocality Sensitive Hashing
私の指紋では、私は5つの整数を持つレコードセットを生成します。例: 33,42,88,121,194
これらは、特定の音楽サンプルで最も高い周波数に対応しています。 例:
0-40
40-80
80-120
120〜180
180-:私は、次の周波数のバケツを持っているオーディオサンプルの30msのための250
Imは同じハッシュを生成する可能性のあるハッシュ(寛容なもの)を生成しようとしています 33,42 、88121194それは希望のための同様のハッシュが形成されることになる周波数のわずかな違いがある
33,43,88,122,195
を言うように。
第1オフはこのLSHですか?私はこれがオーディオフィンガープリンティングに最適であると読んでいます。
もしそうでなければ、私は探しているものを行う可能性のある関数に対して、誰かが擬似コードまたはC#を提供することができますか?私はLSHとmatlabとperlの実装を読んでいますが、私はそれらを理解していないので、リンクを投稿するとあまりにも多くの助けにはなりません。
もう一度ありがとうございます!
ありがとうございます。私は以前に提供したリンクを使用して、すべての周波数(FFTから返された)を循環させ、上記のように特定のレンジ/バケットのために最大のものを見つけました。私は私の問題は、私はmp3を識別するためにこの方法ができますが、ボーカルデータは本当の挑戦だと思う。 – user1112324
サンプルに「静的」があるほどマッチする確率は低くなります。波形を使って作業しているとき(すなわち、完全に拘束されたボーカルデータ)、波形をサンプリングし、各サンプリングにFFTを適用し、FFTを独立して見ることが可能です(例えば、高域、中域、低域)。あなたが答えが好きなら、upvoteして受け入れてください。 – GrayWizardx