私は、さまざまなランダムなサイズの画像を大量に持っています。しないことで、私のテストセット内のデータがすべて(テストセットで他人からとトレーニングセットからの)異なるネットワークのトレーニング中にイメージデータの冗長性を防止するにはどうすればよいですか?
- 私のトレーニングセットが 冗長ではありません - 私は確信して ことをしたいと思い
重複しているのは、基本的には、画像が別の画像の切り取られたものでないか(または最大の画像で同じ画像であるかどうか)を確認することです。
ネットで作業する場合、一般的にどのように対処しますか? Tensorflowのプラグインには何とか準備ができていますか?
は、トリックをやっているK.
http://askubuntu.com/questions/4072/how-can-i-find-duplicate-photosは –
です。ありがとう@ThomasPinetz! (私のGoogle検索ではこれを出力しませんでした;))魔法使いが私に一番合っているかチェックします。 – Kalanit
私はMLのエキスパートではありませんが、これを行うことは非生産的であると感じています。まず、複製が元の配布を表す場合、複製を削除すると結果が悪化する可能性があります。第2に、画像データセットから学習するときランダムに切り取られ変換されたサンプルを追加してサンプル数を増やし、ロバスト性を向上させることが一般的です。 – phg