データセットに重複したトレーニング

-1

私は分類のために画像のデータセットを持っています。データセットは非常に大きく、ほとんどの画像は互いに重複しています。したがって、基本的に同じ画像が複数回現れます。さらに、データセットはアンバランスです。重複のデータセットをクリーニングする動機を理解しています。しかし、それは広範囲で、非常に時間がかかる。このデータセットでネットをトレーニングする方法はありますか？モデルに余裕がないのですか？より厳しい正則化、ドロップアウトを実施しても、損失にペナルティを課すと、まだ有効なモデルが生成されますか？データセットに重複したトレーニング

出典

2017-11-03 Ronica Jethwa

あなたの質問に直接答えは出ていませんが、その一部には解決策があります。重複が正確なコピーである場合、重複を広げる必要はありません。重複にピクセル差がない場合は、各イメージのハッシュ（MD5など）を生成し、一意のハッシュを持つイメージのみをデータセットに取り込める可能性があります。 –

イメージのハッシュを生成することは、目には見えないが、ピクセル値は異なる小さな照明の変化を言う。 –

重複は、オーバーフィッティングを意味しません。彼らはそのイメージをトレーニングでより重視します。はい、あなたはデータセットを訓練することができます。結果は有効です。たとえば、重複量が同じ場合（たとえば、すべて10個）です。 1つの画像がエポック1の開始付近で複数回表示されるようになるため、シャッフリングの順序はわずかながらトレーニングのバランスに影響を与える可能性があります。

あなたが列挙しているさまざまな対抗策は、過剰なものに対抗するための優れたツールですが、あなたの主な危険は単なるあなたのものです。

出典

2017-11-03 23:47:40 Prune

データセットに重複したトレーニング

答えて

関連する問題