ファイルの類似性を評価する（言語不問の質問）

私はファイルストア（ほとんどのファイルが< 40MB、数ギガバイトのビデオファイルとグラフィックスファイルを含む75,000ファイル）を持っており、その中のファイルの類似性を簡単な手段。ファイルの類似性を評価する（言語不問の質問）

私は、反転されたものを除いてハッシュキーのように機能すると考えています（ファイルの小さな変更に対してはハッシュキーが大きく異なりますが、小さな変更の場合はこの数字が少し異なります）。文書は処理され、番号が生成され、これらの番号またはコードを比較して、どれが似ているかを調べることができます。

これは可能ですか？誰かがオープンソースの実装やアルゴリズムについて知っていますか？任意のファイルタイプをカバーしなければならないので、検索ソリューション（Apache Solrなど）は私が探しているものではありません。

2010-12-17 tjb

あなたの最終目標が何であるかを説明すると、役立つでしょう。特定のマルチギガバイトのメディアファイルが、別のマルチギガバイトのメディアファイルと似ていると本当に思いますか？ –

ニック、します。例えば、我々は、様々な医療処置の複数のビデオファイルとそれらのビデオファイルの複数のカットを有する。切れ目は似ているはずです – tjb

あなたはシムハッシュを探しています。このarticle。

2010-12-17 15:16:22 hmuelner

バイオインフォマティクスの分野、特にBLASTとFASTAで使用されるアルゴリズムを見てください。

これは共通の研究課題であり、種間で非常に類似している遺伝子コードの部分文字列を特定します。

2010-12-17 15:13:27 qdot

解決策はありませんが、locality sensitive hashingをご覧ください。

2010-12-17 15:15:06 NPE

答えて