2017-08-24 2 views
0

私は最近、RPARTと協力していて、理解していない計算をしました。情報ゲインを使ってRpart改善スコア

情報獲得のために作業するとき、「改善する」か変数の重要度をどのように計算するか(私のテストと同じように見えます)。コマンドで

happy,class 
    yes,p 
    no,n 

:ダミー例として

は、私は次の表を学んでみました

fit <-rpart(class ~ happy,data=train,parms = list(split="information"),minsplit=0)

それは簡単ですし、各ルートとして期待されるツリーを返します。 1つの要素を含む葉。

これが混乱するところでは、スプリットの改善点は1.386294です。

私はここで改善が1になると思います(子供のエントロピー1からエントロピー0に行く)、何が欠けていますか?

+0

こんにちはグレッグ、ようこそstackoverflow!人々があなたを助けることができるように[再現可能な例](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)を提供してください。 –

+0

こんにちはJulian、私はきれいにしました元のポスト - 統計の計算方法についての一般的な洞察も歓迎です! – Greg

+0

rpartはCARTの実装です。エントロピーではなく、ノード分割を決定するためにGINIを使用します。 – G5W

答えて

0

これは、RPARTが自然なログを使用しているためです。

したがって、改善点は、ノード内の要素数でスケーリングされたエントロピーの改善であると思われます。

ルートノードのエントロピーは、-ln(1/2)* 1/2 * 2 + -ln(1/2)* 1/2 * 2 = -ln(1/2)* 2 1.38 。葉ノードのエントロピーは、両方とも0です。

なぜ自然なログを使用するのですか?わかりません。

関連する問題