1

私はFlask(Python)を使ってサーバーを稼働させています。ユーザーは画像をアップロードできます。 (最終的に画像はS3バケットに送られますが、現在はディスクに保存されています)。しかし、重複した画像や類似の画像を避けたいのです。大量の画像と内容を比較する

これは、ユーザーが画像をアップロードしようとするたびに、(tineyeと同様の方法で)データベースを検索する必要があることを意味します。同様の結果が存在する場合、アプリは画像をアップロードしません。 Python Imaging Libraryだけで、このような "逆イメージ検索"が可能ですか?同様のタスクを達成するために他のPythonフレームワークが使用されていますか? Amazonツールですか?

+0

重複は簡単ですが、単にmd5合計を保存して検索することはできますが、「類似」ははるかに困難です。 – jordanm

+0

あなたは非常に便利な答えを得ているようですね。しかし、「アプリは画像をアップロードしません」*という理由で固定されていません。*スケールで、あなたのモチベーションによっては前進してすぐにアップロードを許可し、バックグラウンドで重複を検出/処理する方が適切です。新しい画像が、例えば、あなたがすでに持っているものよりも高品質であればどうでしょうか?正当なアップロードの99.999%を減速させたくないかもしれませんが、これは重複排除が必要な理由に大きく依存しています。ストレージは安いです。 –

答えて

4

イメージライブラリを使用すると、ユニークなイメージのフィンガープリントが作成されます。新しいイメージがフィンガープリントと照合されて、適切に決定します。フィンガープリントのために

は、あなたがここにAIを持参したい場合は、 はオートエンコーダを探してください。この https://realpython.com/blog/python/fingerprinting-images-for-near-duplicate-detection/

を参照してください。

+0

どのように指紋を作成しますか?指紋は、同じイメージのサイズが変更されたような「類似の」イメージと同じになりますか? – jordanm

+0

こちらを参照してくださいhttps://realpython.com/blog/python/fingerprinting-images-for-near-duplicate-detection/ – bigbounty

関連する問題