私はkaggleから詐欺のサンプリングを実験しました。不均衡なデータで意思決定ツリーが完璧に機能するのはなぜですか?
サンプルは284807件のトランザクションで構成されています。そのうちの497件は1クラスで、残りは別のもので、比率は0.172%です。 不均衡な問題があり、単純なランダムアンダーサンプリングがどのように機能するかをテストしたかったのです。サンプルを20分割し、精度 - リコール曲線下の領域を調べました。
私は線形回帰と決定木を取った。 enter image description here
をしかし、その決定木は完璧に動作ようだ: 線形回帰が期待どおりに動作enter image description here
我々は非常に高い精度と再現率を持ち、そしてアンダーサンプリングは、それらを悪化させます。なぜ2つのモデルの間に大きな違いがあるのですか?