私はScikitLearnのランダムフォレストを非常に不均衡なデータセット(比率1:10 000)に適用します。私はclass_weigth = 'balanced'パラメータを使うことができます。私はアンダーサンプリングと同等であることを読んだ。ScikitLearnランダムフォレストのアンダーサンプリングとクラスウェイト
ただし、このメソッドはサンプルに重みを適用しているように見え、実際のサンプル数は変更しません。ランダムフォレストの各ツリーは、トレーニングセットのランダムに描かれたサブサンプルの上に構築されているため
は、私は少数のクラスは、各サブサンプルに十分な代表(またはまったくrepresentatedない)ではありません怖いです。これは本当ですか?これは非常に偏った木につながります。
私は、class_weight = "balanced"パラメータを使用することで、非常に不均衡なデータセットに対して不公平なRandom Forestモデルを構築することができるのか、あるいは各ツリーで多数クラスをアンダーサンプリングする方法を見つけるべきか、セット?
表現があまりないクラスを持つこと自体危険です。あなたは少数派の代表的な例が十分に必要です。これは、多数クラスのアンダーサンプリングにメリットがあることを意味するものではありません。 –