情報ゲインを使ってRpart改善スコア

私は最近、RPARTと協力していて、理解していない計算をしました。情報ゲインを使ってRpart改善スコア

情報獲得のために作業するとき、「改善する」か変数の重要度をどのように計算するか（私のテストと同じように見えます）。コマンドで

happy,class 
    yes,p 
    no,n

：ダミー例として

は、私は次の表を学んでみました

fit <-rpart(class ~ happy,data=train,parms = list(split="information"),minsplit=0)

それは簡単ですし、各ルートとして期待されるツリーを返します。 1つの要素を含む葉。

これが混乱するところでは、スプリットの改善点は1.386294です。

私はここで改善が1になると思います（子供のエントロピー1からエントロピー0に行く）、何が欠けていますか？

出典

2017-08-24 Greg

こんにちはグレッグ、ようこそstackoverflow！人々があなたを助けることができるように[再現可能な例]（https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example）を提供してください。 –

こんにちはJulian、私はきれいにしました元のポスト - 統計の計算方法についての一般的な洞察も歓迎です！ – Greg

rpartはCARTの実装です。エントロピーではなく、ノード分割を決定するためにGINIを使用します。 – G5W

これは、RPARTが自然なログを使用しているためです。

したがって、改善点は、ノード内の要素数でスケーリングされたエントロピーの改善であると思われます。

ルートノードのエントロピーは、-ln（1/2）* 1/2 * 2 + -ln（1/2）* 1/2 * 2 = -ln（1/2）* 2 1.38 。葉ノードのエントロピーは、両方とも0です。

なぜ自然なログを使用するのですか？わかりません。

出典

2017-09-19 18:21:42 Greg

情報ゲインを使ってRpart改善スコア

答えて

関連する問題