私はスタートアッププロジェクトを持っており、それはファイルに関するものです。私はアルゴリズムを作成しようとしましたが、できませんでした。これらの目的のためにデータベースと一緒にアルゴリズムを作成したいファイルを他のファイルと比較して、前に存在していたかどうかを確認しますか?
データベースにファイルが多数あります(ファイルまたはファイルとの関係は関係ありません)。別のファイルが来たら、そのファイルをすべて私のファイルとそれが80%以上の類似性を持っている場合、私は自分のデータベースに他のすべてのファイルとの類似性が80%未満であるという条件で他のデータベースに保存することはできません。
類似性を定義する:バイトシーケンス、言葉?サポートするファイルタイプは?コードなしで、これはここで話題にはなりません。私は多くの で一つのファイルを比較すると問題を抱えている – dlatikay
@dlatikay親愛なる友人はそれは私のファイルは、私はすべてのファイルの種類で実行したいが、あなたは[見たいかもしれません –
特別にPDFとのdocxタイプ をファイルに固執していない時間 を取ります近くの重複検出](http://stackoverflow.com/a/23053827/572670)は、あなたにとってうまくいくようです。 – amit