lrgeトレーニングセットでSVMをトレーニングしていて、クラス変数がTrueまたはFalseの場合、トレーニングセットのFalse値の数と比較してTrue値が非常に少ないとトレーニングモデル/結果に影響しますか?彼らは平等であるべきですか?トレーニングセットにTrueとFalseの均等分布がない場合、トレーニングができるだけ効率的に行われるように、これをどうやって管理しますか?SVMでデータの不均衡をどのように扱いますか?
6
A
答えて
3
不均衡なデータを持つのは良いことです。SVMは、同じエラー重みを割り当てるのではなく、そうでないインスタンス(たとえば、あなたのケースでは "True")に関連する誤分類エラーに大きなペナルティを割り当てる必要があるからです。大多数にすべてを割り当てる望ましくない分類器。しかし、はおそらくとなり、バランスの取れたデータでより良い結果が得られます。それはすべてあなたのデータに依存します。
よりバランスのとれたデータを得るために、データを人為的に歪ませることができます。このペーパーをチェックしてみてください:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF
2
私の経験では、標準的なSVM分類器は不均衡なデータに対してうまく機能しません。私はC-SVMでそれに遭遇し、それはnu-SVMにとってさらに悪いことです。多分アンバランスなデータに適したモードを提供するP-SVMを見たいかもしれません。
関連する問題
- 1. cat boostを扱う不均衡なデータの場合
- 2. ggplot2はクラスの不均衡のデータを扱う方法を知らない
- 3. ()の不均衡
- 4. SKlearn SVM不平衡データ付きRBF
- 5. この不均衡なクラスの歪んだデータセットを扱うにはどうすればいいですか?
- 6. マルチラベル分類のための不均衡なデータセットの扱い
- 7. 分類のための不均衡データ
- 8. 不均衡なデータをwekaでどのように分類するのですか?
- 9. Gearman - ディスパッチングの不均衡
- 10. GANに固有のクラスの不均衡?
- 11. 深い学習の不均衡なデータの悪影響はありますか?
- 12. クロスバリデーションのための不均衡なデータのscikit-learnアンダーサンプリング
- 13. 不均衡なデータでオーバー変換する
- 14. 畳み込みニューラルネットワークの不均衡クラス
- 15. 不均衡なデータセットのサンプリング比率
- 16. 不均衡と呼ばれるデータセットはいつですか?
- 17. ウィンドウに不均衡なユーティリティがありますか?
- 18. sklearn GroupKfoldでクラスの不均衡を処理するには?
- 19. イメージセグメンテーションの不均衡とは何ですか?
- 20. LibSVM - 不均衡なデータを持つマルチクラス分類
- 21. レガシーコード(およびデータ)をどのように扱いますか?
- 22. クラスが不均衡なsklearnロジスティック回帰
- 23. 不均衡なデータセット:Sklearn and Over | | SMOTEサンプリング?
- 24. 不均衡なワーカー/マシン割り当て
- 25. パッケージ内のRデータをどのように扱いますか?
- 26. データが不均衡なバイナリクラスのセマンティックセグメンテーションの損失が収束しない
- 27. データが少ない、疎と不均衡のときのフィーチャー選択
- 28. クラスの不均衡が大きいデータを使用して機械学習アルゴリズムを教える方法はありますか? (SVM)
- 29. ガーキンの不均衡なテーブルを確認するには?
- 30. RcppParallelの使用中にスタックの不均衡が発生する