1

不均衡なトレーニングデータでCNNやRNNをトレーニングしている間に、トレーニングが比較的速く収束することがわかりました。 80%のyesの例があり、おそらく常にyesを出力します)。私は、この解決策は局所最適であり、ネットワークは訓練中にそれをエスケープできないと説明することができます。これは正しかったのでしょうか? 私はそれに対して何ができますか?セットをより均等にするために、より多くのトレーニングデータを合成しますか?ほかに何か? ありがとう!機械学習の不均衡なトレーニングデータ(CNNs/RNNs)

答えて

1

はい、あなたは正しいです。不均衡な訓練データは精度に影響します。不均衡なクラスの問題を解決する解決策のいくつかは以下の通りです。

1)その他のデータ収集:これは場合によっては容易ではありません。たとえば、非詐欺行為に比べて詐欺行為の件数は非常に少ない。

2)アンダーサンプリング:多数クラスからデータを削除します。あなたはそれを無作為にまたは有益に削除することができます(配布物の助けを借りて、取り除くべき部分/パッチを決める)

3)オーバーサンプリング:少数派クラスに属する観察を複製する。

1

あなたの質問はTFとは関係がありません。これは機械学習の標準的な問題です。ちょうどGoogleの "機械学習の不均衡なデータを扱う"とタイプし、いくつかのページを読んでください。ここで

は、いくつかのアプローチです:

  • 使用他のメトリック(F1)
  • アンダー/オーバーサンプリング/重み付け
より多くのデータを取得します