ウェカ - 分類および回帰木

私は（66％の割合スプリット付き）housing.arffデータに分類および回帰木（trees.REPTree）を実行しました。これが結果です。ウェカ - 分類および回帰木

REPTree 
============ 

RM < 6.84 
| LSTAT < 14.8 
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38]

葉（25.15、88/21.02など）の値はどういう意味ですか？

出典

2017-01-26 Gaurav Chaturvedi

答えを見つけましたか？私は同じ質問があります。私はWekaのリストに載せましたが、答えはまだありません。 http://weka.8497.n7.nabble.com/REPTree-regression-tree-meaning-of-leaf-node-information-td40575.html – zbicyclist

回答をリバースエンジニアリングしようとしましたが、より正確な情報が得られたら、これを更新します。

トヨタカローラのデータセット（中古車の価格を予測）で非常に小さな木を走らせました。

Age_08_04 < 32.5 
| Weight < 1297.5 : 18033.54 (121/6009564.12) [59/6768951.55] 
| Weight >= 1297.5 : 27945.83 (3/10945416.67) [3/22217291.67] 
Age_08_04 >= 32.5 
| Age_08_04 < 57.5 : 11363.26 (296/2827594.01) [144/2999066.05] 
| Age_08_04 >= 57.5 : 8636.94 (537/1487597.91) [273/1821232.47]

リーフノード（18033、27945、11363、8636）の最初の数字はこれらの車の予測価格は以下のとおりです。ここでは木です。 2番目と4番目の数字は、インスタンス数になります。 121 + 59 + 3 + 3 ... + 273 = 1436、セット全体のインスタンス数。 2番目の数字は最大957（インスタンスの2/3）になり、4番目の数字は479（インスタンスの1/3）になります。

ウィッテンらの著書（データマイニング：実用的な機械学習ツールと技法、第4版）のセクション6.1で、（決定木は：エラーはエラーレートの推定）が「を考え出すの一つの方法を

ノートエラーの推定は標準である検証方法：最初にと与えられたデータの一部を保持し、それぞれのノードでエラーを推定するための独立したテストセットとして使用します。これは縮小誤差プルーニングと呼ばれます。（Kindleの場所5403）

私は10倍のクロスバリデーションを行っていますが、それは2/3、1/3のデータ分割をしていると思います。

3番目と5番目の数字（/の後）はMSEと思われます。少しの代数を行うと、5番目の数値の加重平均は、クロス検証の要約で報告されたルート平均二乗誤差とルート相対二乗誤差と一致します。私はより多くの情報を見つける場合、私はこの答えを更新する、

アゲイン（ではない、非常に正確な、しかし、私はそれがあることを期待したいとは思わない） - と私はからより決定的な情報を取得させていただきますその他。

出典

2017-05-11 18:43:10 zbicyclist

ウェカ - 分類および回帰木

答えて

関連する問題