2016-03-29 16 views
1

レスポンス変数分割が98%(False)-2%(True)であるランダムフォレスト分類モデルを構築しています。私はScikit LearnのRandomForest分類子を使っています。ランダムフォレストの層別サンプリング-Python

このアンバランスなデータを処理し、オーバーサンプリングを回避する最良の方法は何ですか?

+0

私は既にここで質問に答えています。チェックしてください。 http://stackoverflow.com/a/36255925/2523817 –

答えて

0

パラメータclass_weightを使用できます。あなたの小さなクラスに多くの重量を与え、相互検証を使用して最高の重みを見つけることができますフォーム{class_label: weight}

のクラスに関連付けられている

ウェイト。

たとえば、class_weight={1: 10, 0:1}。クラス1にラベルを追加しました。