私は5000以上の画像のフォルダをjpeg/pngなどに持っています。画像が同じかどうかをどのように確認できますか?画像はWebスクラップで収集され、ファイル名を比較することができないように順次名前が変更されています。dirのファイルが同じであることを確認してください
現在、ハッシュが同じかどうかを確認していますが、これは非常に長い処理です。私は現在使用しています:
def sameIm(file_name1,file_name2):
hash = imagehash.average_hash(Image.open(path + file_name1))
otherhash = imagehash.average_hash(Image.open(path + file_name2))
return (hash == otherhash)
ネストされたループ。 1画像と5000以上の画像を比較すると約5分かかるので、それぞれを比較すると計算に数日かかるでしょう。
これをPythonで実行する方法がありますか?私は並列処理を考えていましたが、まだまだ時間がかかりますか?
また、高速であるファイルを比較する別の方法がありますか?
おかげ
すべてが同じ名前で始まるかどうかチェックしますか?ここにいくつかのファイル名を投稿できますか? – Sriram
ハッシュリストを取得し、ハッシュリストで重複を見つけるために、すべての画像を 'imagehash.average_hash'でハッシュしないのはどうでしょうか? – Huang
最初にファイルのサイズを確認し、等しい場合はハッシュのみを計算することができます。 –