1
レスポンス変数分割が98%(False)-2%(True)であるランダムフォレスト分類モデルを構築しています。私はScikit LearnのRandomForest分類子を使っています。ランダムフォレストの層別サンプリング-Python
このアンバランスなデータを処理し、オーバーサンプリングを回避する最良の方法は何ですか?
レスポンス変数分割が98%(False)-2%(True)であるランダムフォレスト分類モデルを構築しています。私はScikit LearnのRandomForest分類子を使っています。ランダムフォレストの層別サンプリング-Python
このアンバランスなデータを処理し、オーバーサンプリングを回避する最良の方法は何ですか?
パラメータclass_weight
を使用できます。あなたの小さなクラスに多くの重量を与え、相互検証を使用して最高の重みを見つけることができますフォーム{class_label: weight}
のクラスに関連付けられている
ウェイト。
たとえば、class_weight={1: 10, 0:1}
。クラス1にラベルを追加しました。
私は既にここで質問に答えています。チェックしてください。 http://stackoverflow.com/a/36255925/2523817 –