私は現在、Nvidia DIGITSを使って画像分類子を訓練しています。 ILSVRC12データセットの一部として1,000,000枚の画像をダウンロードしています。ご存じのように、このデータセットは1,000クラスで構成され、1クラスあたり1,000画像が含まれています。問題は、多くの画像がデッドFlickrのURLからダウンロードされ、私のデータセット(約5-10%)のかなりの部分に、以下に示す一般的な「利用不可」画像が表示されることです。私は、この "一般的な"画像の各コピーを通過して削除することを計画しているので、各クラスに関連する画像のみでデータセットを残しています。画像分類器のトレーニングデータ内の各クラスのサイズは等しい必要がありますか?
この操作を行うと、クラスのサイズが不均一になります。彼らはもはやそれぞれ1,000枚の画像を含んでいません。彼らはそれぞれ900-1000枚の画像を含むでしょう。 各クラスのサイズは等しくなければなりませんか?つまり、クラシファイアの精度に影響を与えずにこれらの一般的な画像を削除できますか?事前にフィードバックをいただきありがとうございます。