ScikitLearnランダムフォレストのアンダーサンプリングとクラスウェイト

私はScikitLearnのランダムフォレストを非常に不均衡なデータセット（比率1:10 000）に適用します。私はclass_weigth = 'balanced'パラメータを使うことができます。私はアンダーサンプリングと同等であることを読んだ。ScikitLearnランダムフォレストのアンダーサンプリングとクラスウェイト

ただし、このメソッドはサンプルに重みを適用しているように見え、実際のサンプル数は変更しません。ランダムフォレストの各ツリーは、トレーニングセットのランダムに描かれたサブサンプルの上に構築されているため

は、私は少数のクラスは、各サブサンプルに十分な代表（またはまったくrepresentatedない）ではありません怖いです。これは本当ですか？これは非常に偏った木につながります。

私は、class_weight = "balanced"パラメータを使用することで、非常に不均衡なデータセットに対して不公平なRandom Forestモデルを構築することができるのか、あるいは各ツリーで多数クラスをアンダーサンプリングする方法を見つけるべきか、セット？

表現があまりないクラスを持つこと自体危険です。あなたは少数派の代表的な例が十分に必要です。これは、多数クラスのアンダーサンプリングにメリットがあることを意味するものではありません。 –

私は+ -10000サンプルで過半数クラスを分割し、各サンプルと同じ少数派クラスのポイントを使用して同じモデルを訓練できると思います。

2017-04-19 22:51:44 Albgold

ありがとうございます！私は同様の考えを念頭に置いていましたが、どこにでも適用されたようなものは見ていませんでした。私は、フォレストの各ツリーで、多数のクラスの異なるサンプル（マイノリティクラスの同じ点）を使用することを考えていました。 –

答えて