2017-09-07 15 views
1

私はkaggleから詐欺のサンプリングを実験しました。不均衡なデータで意思決定ツリーが完璧に機能するのはなぜですか?

サンプルは284807件のトランザクションで構成されています。そのうちの497件は1クラスで、残りは別のもので、比率は0.172%です。 不均衡な問題があり、単純なランダムアンダーサンプリングがどのように機能するかをテストしたかったのです。サンプルを20分割し、精度 - リコール曲線下の領域を調べました。

私は線形回帰と決定木を取った。 enter image description here

をしかし、その決定木は完璧に動作ようだ: 線形回帰が期待どおりに動作enter image description here

我々は非常に高い精度と再現率を持ち、そしてアンダーサンプリングは、それらを悪化させます。なぜ2つのモデルの間に大きな違いがあるのですか?

答えて

1

まず、一般に、単純な決定木モデルは、不均衡な問題を非常にうまく解決できません。モデルのパフォーマンスは、データセットの実際の分布に強く関連しています。

アンバランスの問題を解決するために決定木モデルにつながることができますいくつかの状況は、あなたが問題に言及した状況は、次のと一致しているかどうかを確認することができ、があります。

  1. 少数データが​​されていますすべての特徴空間の1つの領域。決定木の訓練プロセスは再帰的プロセスであり、アルゴリズムは、以下を満たすまで、最適な分割特性、分岐およびノー​​ドの生成を選択し続ける。1)現在のノードには、すべて同じカテゴリに属し、分割する必要はありません。2)属性セットが空であるか、すべての属性のすべてのサンプルuteの値は同じであり、分割できません。3)現在のノードにはサンプルセットが含まれていません。空であり、分割できません。少数データが​​すべてフィーチャ空間の1つの領域にある場合、予測において、テストセットがそのような特徴分布でもある場合、良好な分類器が得られる。
  2. 費用対効果の高い学習を使用している意思決定ツリーを使用しています。決定がコストに敏感な場合、少数派のサンプルの誤分類は過半数クラスのサンプルの誤分類よりもコストが高くなります。

あなたがアンサンブル学習を使用する場合は、モデルがうまく実行されますが、それは決定木ではありません、それは、このようなロジスティック回帰などの線形回帰を使用して、簡単な分類については、RFまたはGBDT

だ、パフォーマンスがほとんどです不均衡な問題に直面したときは確かに悪いです。これは、トレーニングでは、誤分類を最小限にする超平面を探しているためです。その結果、モデルはすべてのサンプルをほとんどのラベルに分類します。

関連する問題