2017-11-03 5 views
-1

私は分類のために画像のデータセットを持っています。データセットは非常に大きく、ほとんどの画像は互いに重複しています。したがって、基本的に同じ画像が複数回現れます。さらに、データセットはアンバランスです。 重複のデータセットをクリーニングする動機を理解しています。しかし、それは広範囲で、非常に時間がかかる。 このデータセットでネットをトレーニングする方法はありますか?モデルに余裕がないのですか? より厳しい正則化、ドロップアウトを実施しても、損失にペナルティを課すと、まだ有効なモデルが生成されますか?データセットに重複したトレーニング

+0

あなたの質問に直接答えは出ていませんが、その一部には解決策があります。重複が正確なコピーである場合、重複を広げる必要はありません。重複にピクセル差がない場合は、各イメージのハッシュ(MD5など)を生成し、一意のハッシュを持つイメージのみをデータセットに取り込める可能性があります。 –

+0

イメージのハッシュを生成することは、目には見えないが、ピクセル値は異なる小さな照明の変化を言う。 –

答えて

0

重複は、オーバーフィッティングを意味しません。彼らはそのイメージをトレーニングでより重視します。はい、あなたはデータセットを訓練することができます。結果は有効です。たとえば、重複量が同じ場合(たとえば、すべて10個)です。 1つの画像がエポック1の開始付近で複数回表示されるようになるため、シャッフリングの順序はわずかながらトレーニングのバランスに影響を与える可能性があります。

あなたが列挙しているさまざまな対抗策は、過剰なものに対抗するための優れたツールですが、あなたの主な危険は単なるあなたのものです。

関連する問題