2012-04-25 15 views
43

私はさまざまなデータマイニング手法についていくつかの調査をしており、わからなかったことがありました。 もし誰かが素晴らしいと思っている人がいれば。デシジョンツリーとNaive Bayesの分類子

デシジョンツリーや他のケースではNaive Bayesクラシファイアを使用する方が良いでしょうか?

なぜ特定のケースでそれらの1つを使用するのですか?そして、別のケースでは、他のですか? (アルゴリズムではなく、その機能を見ることによって)

これについての説明や参考資料はありますか?

+1

この質問はオフとして表示され統計についてですので、-topicです – finnw

+3

この質問は、datascience.stackexchange.comにもっと属しているので、この質問を閉じるには投票しています。 – jopasserat

答えて

126

決定木は非常に柔軟性が高く、理解しやすく、デバッグしやすいです。彼らは分類問題と回帰問題を扱うでしょう。したがって、(赤、緑、上、下)のような分類値を予測しようとしている場合や、2.9,3.4などの連続値を予測しようとしている場合、決定木は両方の問題を処理します。おそらくデシジョンツリーに関する最もクールなものの1つは、データテーブルが必要なだけで、前の設計作業を行うことなく、そのデータから直接分類器を構築するということです。重要でないプロパティはある程度、分割として選択されず、最終的に剪定されるので、ナンセンスには非常に寛容です。それを設定して忘れ始める。

しかし、欠点があります。シンプルな意思決定ツリーは、訓練データをより多くフィットさせる傾向があります。そのため、一般的に、ツリープルーニングとプルーニング手順の調整が必要な他の手法があります。あなたには初期設計費はかかりませんでしたが、木の性能を調整することでそれを支払うことになります。また、単純な意思決定木はデータを四角形に分割するので、物事の周りにクラスターを構築することは、データのクラスターを包含するために多くを分割しなければならないことを意味します。多くを分割することは複雑な木につながり、過大な確率を上げます。背の高い樹木は元に戻ってしまうので、データ内のある機能の周りにクラスタを構築することができますが、それは枝刈りプロセスで生き残れない可能性があります。 surrogate splitのようなテクニックがあり、いくつかの変数に沿って分割して、水平または垂直ではない空間に分割を作成することができます(0 <勾配<無限大)。クールですが、ツリーが理解しにくくなり始め、これらのアルゴリズムを実装する複雑さが増します。ブースティングやランダムなフォレストの決定木などの他の技法も非常にうまくいくことがあり、決定木から最高のパフォーマンスを得るにはこれらの技法が不可欠だと感じている人もいます。この場合も、木を調整するために理解して使用する要素が増え、実装する要素が増えます。最終的にアルゴリズムに追加するほど、使用する障壁が高くなります。

Naive Bayesでは、手作業で分類を作成する必要があります。表形式のデータを投げ捨て、分類する際に使用する最高の機能を選択する方法はありません。どの機能が重要かを選ぶことはあなた次第です。意思決定ツリーは、表形式のデータから最適な機能を選択します。 Naive Bayesが機能を選択する方法があれば、意思決定ツリーを同じように機能させるのと同じテクニックを使用することに近づくでしょう。このことは、Naive Bayesを他の統計的手法と組み合わせて、どのような分類が最もよく分類され、意思決定ツリーを使用できるかを判断するのに役立つ必要があるかもしれないことを意味します。 Naive Bayesは連続的な分類子として答えます。カテゴリ予測に適応させる手法はありますが、ベイジアンはかなり良いパフォーマンスを発揮できます(A 90%、B 5%、C 2.5%D 2.5%など)。ネットワークをプルーニングまたは処理する必要はありません。これにより、実装するアルゴリズムが簡単になります。しかし、それはすべての確率が1000倍になるので、デバッグして理解することは難しいので、期待することをテストするように注意する必要があります。 Naive Bayesは、トレーニングデータにすべての可能性が含まれていないため、データ量が少なくても非常に効果的です。意思決定ツリーはNaive Bayesと比較して多くのデータでよりよく機能します。

Naive Bayesは、ロボット技術やコンピュータビジョンで多く使われています。意思決定ツリーは、そのような状況ではほとんど機能しません。ロイヤルフラッシュとクワッドが発生するので、数百万のポーカーハンドを見てポーカーハンドを認識するための意思決定ツリーを教えることは非常に貧弱です。それが結果として生じる樹木から刈り取られた場合、それらの重要な手を間違って分類するでしょう(上記の高木の議論を思い出してください)。今、あなたがこれを使って癌を診断しようとしていると思ってください。集団では大量のがんが発生せず、より多くの可能性が排除されます。良いニュースは、これは体重を使用することによって処理することができるので、勝つ手を体重計に載せたり、がんを患っていない、またはがんを患っていない状態で癌を摘出し、それを樹立して刈り取らないようにします。ここでも、これは結果として得られたツリーを先に説明した状況に調整する部分です。

決定木は、入力が出力の最良の予測子であることを伝えてくれるのできれいです。決定木は、出力への入力とその関係の統計的な関係があるかどうかを判断する手助けとなります。多くの場合、結果として得られる意思決定ツリーは、それが記述する関係より重要ではありません。デシジョンツリーは、データについて学ぶときにリサーチツールとして使用できるので、他のクラシファイアを構築することができます。

デシジョンツリーとナイーブベイの間をダイシングして問題を解決する場合は、それぞれをテストすることをお勧めします。意思決定ツリーを構築し、素朴なBayesクラシファイアを構築してから、あなたが持っているトレーニングと検証データを使用してシュートアウトします。これまでベストを尽くしているのは、その分野でより良いパフォーマンスを発揮するでしょう。 K-nearestはいくつかの状況で両方を実行することが示されており、KNNは実装して使用する簡単なアルゴリズムであるため、K-nearest neighbor(KNN)予測子に対してそれぞれのものをキャストすることは常に良い考えです。 KNNが他の2つより優れたパフォーマンスを発揮する場合は、それに付随します。

一部の情報源:

CARTベースの決定木のマニュアル。この本は、など http://www.amazon.com/Classification-Regression-Wadsworth-Statistics-Probability/dp/0412048418

、CARTアルゴリズムの https://www.youtube.com/watch?v=p17C9q2M00Q

比較に穏やかなイントロをCARTアルゴリズムをカバーするだけでなく、後押し、決定木、重み、欠損値、代理分割を議論 - 、そのKNNに気付きますデシジョンツリー、C4.5、SVMはほとんどのテストで非常にうまくいきます。 http://www4.ncsu.edu/~arezaei2/paper/JCIT4-184028_Camera%20Ready.pdf

アルゴリズムの別の比較 - ブースト決定木とランダムトップ中央にKNNを持つリスト: http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml06.pdf

もう一つの良い走行様々な技術のダウン: http://www.quora.com/What-are-the-advantages-of-different-classification-algorithms

+9

これを書く時間をとっていただきありがとうございます。ポイントまでクリアでストレート。 – Youssef

+8

読者は気をつけなければならない---これのいくつかは正しくない。たとえば、表形式のデータからNaive Bayesモデルを構築することは、まったくのことです。私は先週、約20分でそうしていましたが、その前に何十回もやったことがあります。 KNNは、一般的にすべての意思決定ツリーモデル、または一般的なNaive Bayesを実行するわけではありませんが、特定のデータセットに対しては可能です。しかし、怠け者の学生はそれを事実とみなし、それを盗聴したとしても、投稿は有用です。彼らは簡単に捕らえられました。 +1。 –

+0

テーブルデータからNaive Bayes(NB)モデルを構築することは不可能ではないと言っているわけではありませんが、NBにはテーブルデータを供給するアルゴリズムは含まれておらず、Naive Bayesモデルが構築されます。あなたがそれを構築したと言えば、表形式のデータを見ることからNaive Bayesモデルを設計し、表形式のデータからNaive Bayesモデルを構築することができます。 KNNは必ずしも勝つとは限りませんが、場合によっては両方のモデルより優れていることが示されています。私は言語を柔らかくしてそこに混乱がないようにすべきだと思います。 – chubbsondubs

関連する問題