ランダムフォレストの層別サンプリング-Python

レスポンス変数分割が98％（False）-2％（True）であるランダムフォレスト分類モデルを構築しています。私はScikit LearnのRandomForest分類子を使っています。ランダムフォレストの層別サンプリング-Python

このアンバランスなデータを処理し、オーバーサンプリングを回避する最良の方法は何ですか？

私は既にここで質問に答えています。チェックしてください。 http://stackoverflow.com/a/36255925/2523817 –

パラメータclass_weightを使用できます。あなたの小さなクラスに多くの重量を与え、相互検証を使用して最高の重みを見つけることができますフォーム{class_label: weight}

のクラスに関連付けられている

ウェイト。

たとえば、class_weight={1: 10, 0:1}。クラス1にラベルを追加しました。

2016-03-29 10:07:16 Farseer

答えて