0

私は、さまざまなランダムなサイズの画像を大量に持っています。しないことで、私のテストセット内のデータがすべて(テストセットで他人からとトレーニングセットからの)異なるネットワークのトレーニング中にイメージデータの冗長性を防止するにはどうすればよいですか?

- 私のトレーニングセットが 冗長ではありません - 私は確信して ことをしたいと思い

重複しているのは、基本的には、画像が別の画像の切り取られたものでないか(または最大の画像で同じ画像であるかどうか)を確認することです。

ネットで作業する場合、一般的にどのように対処しますか? Tensorflowのプラグインには何とか準備ができていますか?

は、トリックをやっている

K.

+2

http://askubuntu.com/questions/4072/how-can-i-find-duplicate-photosは –

+0

です。ありがとう@ThomasPinetz! (私のGoogle検索ではこれを出力しませんでした;))魔法使いが私に一番合っているかチェックします。 – Kalanit

+0

私はMLのエキスパートではありませんが、これを行うことは非生産的であると感じています。まず、複製が元の配布を表す場合、複製を削除すると結果が悪化する可能性があります。第2に、画像データセットから学習するときランダムに切り取られ変換されたサンプルを追加してサンプル数を増やし、ロバスト性を向上させることが一般的です。 – phg

答えて

1

最初のイメージをセット(A)に追加し、残りのイメージを1つずつ解析し、(A)のすべてのイメージのDIFFERSに追加します。最後のイメージまで繰り返してください。学習のためにセット(A)画像を使用して、テストのためにトレーニング休憩のために(A)の80%を言う。

冗長性を確認するには?簡単な言葉スケーリングされた2枚の正方形の画像の両方が4直角の角(または機能)を有するものとしては同一または冗長である

。 1つの正方形の画像が切り取られた場合は、一致するコーナーが2つ以上(または一致する機能)になります。あなたは局所特徴に画像のを見つける必要があり冗長画像を決定するために、このように

そしてに一致しているどのように多くの機能を計算します。

これはSIFT(スケール不変特徴変換)SURF局所特徴検出のような他の技術を介して達成することができます。基本的な理解を得るにはthisの記事を使用してください。

関連する問題