2017-08-01 11 views
0

私は現在、Nvidia DIGITSを使って画像分類子を訓練しています。 ILSVRC12データセットの一部として1,000,000枚の画像をダウンロードしています。ご存じのように、このデータセットは1,000クラスで構成され、1クラスあたり1,000画像が含まれています。問題は、多くの画像がデッドFlickrのURLからダウンロードされ、私のデータセット(約5-10%)のかなりの部分に、以下に示す一般的な「利用不可」画像が表示されることです。私は、この "一般的な"画像の各コピーを通過して削除することを計画しているので、各クラスに関連する画像のみでデータセットを残しています。画像分類器のトレーニングデータ内の各クラスのサイズは等しい必要がありますか?

この操作を行うと、クラスのサイズが不均一になります。彼らはもはやそれぞれ1,000枚の画像を含んでいません。彼らはそれぞれ900-1000枚の画像を含むでしょう。 各クラスのサイズは等しくなければなりませんか?つまり、クラシファイアの精度に影響を与えずにこれらの一般的な画像を削除できますか?事前にフィードバックをいただきありがとうございます。
file not available image

答えて

0

クラスごとのトレーニングデータの数は正確に同じである必要はありません。 10%の違いは、トレーニングプロセスに大きな影響を与えません。
ラベルの不均衡が懸念される場合は、"InfogainLoss"レイヤーを使用して、不足している例を補うことを検討してください。

PS 無効なflickr写真はすべて実際にはと同じであり、md5sumに基づいて自動的に削除されます。
たとえば、imagenetの写真をダウンロードするときにこれらの画像をフィルタリングする方法については、this answerを参照してください。

関連する問題