2017-01-26 14 views
1

私は(66%の割合スプリット付き)housing.arffデータに分類および回帰木(trees.REPTree) を実行しました。これが結果です。ウェカ - 分類および回帰木

REPTree 
============ 

RM < 6.84 
| LSTAT < 14.8 
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38] 

葉(25.15、88/21.02など)の値はどういう意味ですか?

+0

答えを見つけましたか?私は同じ質問があります。私はWekaのリストに載せましたが、答えはまだありません。 http://weka.8497.n7.nabble.com/REPTree-regression-tree-meaning-of-leaf-node-information-td40575.html – zbicyclist

答えて

1

回答をリバースエンジニアリングしようとしましたが、より正確な情報が得られたら、これを更新します。

トヨタカローラのデータセット(中古車の価格を予測)で非常に小さな木を走らせました。

Age_08_04 < 32.5 
| Weight < 1297.5 : 18033.54 (121/6009564.12) [59/6768951.55] 
| Weight >= 1297.5 : 27945.83 (3/10945416.67) [3/22217291.67] 
Age_08_04 >= 32.5 
| Age_08_04 < 57.5 : 11363.26 (296/2827594.01) [144/2999066.05] 
| Age_08_04 >= 57.5 : 8636.94 (537/1487597.91) [273/1821232.47] 

リーフノード(18033、27945、11363、8636)の最初の数字はこれらの車の予測価格は以下のとおりです。ここでは木です。 2番目と4番目の数字は、インスタンス数になります。 121 + 59 + 3 + 3 ... + 273 = 1436、セット全体のインスタンス数。 2番目の数字は最大957(インスタンスの2/3)になり、4番目の数字は479(インスタンスの1/3)になります。

ウィッテンらの著書(データマイニング:実用的な機械学習ツールと技法、第4版)のセクション6.1で、(決定木は:エラーはエラーレートの推定)が「を考え出すの一つの方法を

ノートエラーの推定は標準である 検証方法:最初に と与えられたデータの一部を保持し、それぞれの ノードでエラーを推定するための独立したテストセットとして使用します。これは縮小誤差プルーニングと呼ばれます。 (Kindleの場所5403)

私は10倍のクロスバリデーションを行っていますが、それは2/3、1/3のデータ分割をしていると思います。

3番目と5番目の数字(/の後)はMSEと思われます。少しの代数を行うと、5番目の数値の加重平均は、クロス検証の要約で報告されたルート平均二乗誤差とルート相対二乗誤差と一致します。私はより多くの情報を見つける場合、私はこの答えを更新する、

アゲイン(ではない、非常に正確な、しかし、私はそれがあることを期待したいとは思わない) - と私はからより決定的な情報を取得させていただきますその他。

関連する問題