私は分類のために画像のデータセットを持っています。データセットは非常に大きく、ほとんどの画像は互いに重複しています。したがって、基本的に同じ画像が複数回現れます。さらに、データセットはアンバランスです。 重複のデータセットをクリーニングする動機を理解しています。しかし、それは広範囲で、非常に時間がかかる。 このデータセットでネットをトレーニングする方法はありますか?モデルに余裕がないのですか? より厳しい正則化、ドロップアウトを実施しても、損失にペナルティを課すと、まだ有効なモデルが生成されますか?データセットに重複したトレーニング
-1
A
答えて
0
重複は、オーバーフィッティングを意味しません。彼らはそのイメージをトレーニングでより重視します。はい、あなたはデータセットを訓練することができます。結果は有効です。たとえば、重複量が同じ場合(たとえば、すべて10個)です。 1つの画像がエポック1の開始付近で複数回表示されるようになるため、シャッフリングの順序はわずかながらトレーニングのバランスに影響を与える可能性があります。
あなたが列挙しているさまざまな対抗策は、過剰なものに対抗するための優れたツールですが、あなたの主な危険は単なるあなたのものです。
関連する問題
- 1. データセットの重複カラム
- 2. NaiveBayesClassifierをCSVデータセットでトレーニング中にエラーが発生しました
- 3. タグ付けとトレーニングNERデータセット
- 4. バイアスされたデータセットを使用したトレーニング意思決定ツリー
- 5. 私のデータセットで事前にトレーニングされたモデルのDIGITSトレーニングが正しく動作しません。
- 6. トレーニングのためにTensorFlowセッションでデータセットを使用する方法
- 7. パンダは重複したデータセットを持つグループ別に再サンプリングする
- 8. は重複した行を表示し、rのデータセットを作成します
- 9. Tensorflowでトレーニング用のデータセットとしてディレクトリに画像ファイルをロード
- 10. Tensorflow:トレーニング中の重複予測数の増加
- 11. クラスバランスの取れていないデータセットを使ったトレーニング
- 12. MATLABのテストとトレーニングのための分割データセット
- 13. sifrに重複したテキスト
- 14. datagridviewに重複したエントリ
- 15. 重複した値に
- 16. レポートアイテムが重複してデータセット障害が発生する
- 17. モデルのトレーニングが終了した後の体重の節約 - Tensorflow
- 18. 重複したオブジェクト
- 19. 重複したメタタグ
- 20. 重複したログオンスクリプト
- 21. 重複したコンポーネントバンドル
- 22. 重複したNSManagedObject
- 23. 重複したdylib
- 24. 重複したX509Certificate
- 25. 複数のtiffを使ったTesseractトレーニング
- 26. トレーニングとテスト用にXDFファイル/データセットを分割する
- 27. 重複したコードの場合または重複した条件の場合
- 28. のArrayList - 重複した値
- 29. PHPMailer重複したメール
- 30. 重複した単語
あなたの質問に直接答えは出ていませんが、その一部には解決策があります。重複が正確なコピーである場合、重複を広げる必要はありません。重複にピクセル差がない場合は、各イメージのハッシュ(MD5など)を生成し、一意のハッシュを持つイメージのみをデータセットに取り込める可能性があります。 –
イメージのハッシュを生成することは、目には見えないが、ピクセル値は異なる小さな照明の変化を言う。 –