2016-05-02 15 views
0

重要な変数を決定するために決定木グラフを使用するにはどうすればよいですか?私には最大の情報利得があることがわかります。木の根には小さなエントロピーがあるはずです。変数は、私はあなたに重要な平均値を何重要な変数の決定木

enter image description here

答えて

2

を解釈することができますどのように重要である知っていますか?各ノードで、変数はコンテキストを考慮して最も重要なものを選択し、情報利得による選択が実際に機能することを前提としています(必ずしもそうではありません)。例えば、ノード11において、BBはAA> 20である最も重要な弁別器である。

明らかに、AAとBBは、情報利得によって選択することがデータを分割する最良の方法を与えると仮定すると、最も有用である。残りの部分はさらに洗練されています。 CとNは次に来るでしょう。

質問する必要があります:私はすべてのノードを保持する必要がありますか?

答えは多くのことに依存し、おそらく最良の答えはありません。 1つの方法は、各リーフの合計ケースカウントを使用し、それらをマージすることです。

私はあなたのイメージでこれをどうやって行うのか分かりません。何が葉に表示されているのか、何が 'n'なのかは本当に明確ではありません。また、 'p'が何であるかもわかりません。

+1

AA、N、BBこれらは、このツリーに基づいた属性(変数)です。これらの属性は意味があります。 –

+1

私はそれを得ました。必要なのは、画像内の各要素の短い説明と表示される内容です。例えば、p <0.001は正確に何を意味するのですか? 'p'はエントロピーですか、確率?他の?葉は何を示していますか? nとは何ですか?ケース数?各葉の側軸がクラスである場合、1つのケースでクラスの分布をどのように取得するのですか(n == 1ならノード17の場合) – DAV

+1

これらのツリーの中のすべてが変数ではありませんが、クラスは申し訳ありませんが、私はpが確率であると理解していますか?なぜなら情報ゲインの式にはエントロピーであるEがあり、確率はPであるから –