私は(66%の割合スプリット付き)housing.arffデータに分類および回帰木(trees.REPTree) を実行しました。これが結果です。ウェカ - 分類および回帰木
REPTree
============
RM < 6.84
| LSTAT < 14.8
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38]
葉(25.15、88/21.02など)の値はどういう意味ですか?
私は(66%の割合スプリット付き)housing.arffデータに分類および回帰木(trees.REPTree) を実行しました。これが結果です。ウェカ - 分類および回帰木
REPTree
============
RM < 6.84
| LSTAT < 14.8
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38]
葉(25.15、88/21.02など)の値はどういう意味ですか?
回答をリバースエンジニアリングしようとしましたが、より正確な情報が得られたら、これを更新します。
トヨタカローラのデータセット(中古車の価格を予測)で非常に小さな木を走らせました。
Age_08_04 < 32.5
| Weight < 1297.5 : 18033.54 (121/6009564.12) [59/6768951.55]
| Weight >= 1297.5 : 27945.83 (3/10945416.67) [3/22217291.67]
Age_08_04 >= 32.5
| Age_08_04 < 57.5 : 11363.26 (296/2827594.01) [144/2999066.05]
| Age_08_04 >= 57.5 : 8636.94 (537/1487597.91) [273/1821232.47]
リーフノード(18033、27945、11363、8636)の最初の数字はこれらの車の予測価格は以下のとおりです。ここでは木です。 2番目と4番目の数字は、インスタンス数になります。 121 + 59 + 3 + 3 ... + 273 = 1436、セット全体のインスタンス数。 2番目の数字は最大957(インスタンスの2/3)になり、4番目の数字は479(インスタンスの1/3)になります。
ウィッテンらの著書(データマイニング:実用的な機械学習ツールと技法、第4版)のセクション6.1で、(決定木は:エラーはエラーレートの推定)が「を考え出すの一つの方法を
ノートエラーの推定は標準である 検証方法:最初に と与えられたデータの一部を保持し、それぞれの ノードでエラーを推定するための独立したテストセットとして使用します。これは縮小誤差プルーニングと呼ばれます。 (Kindleの場所5403)
私は10倍のクロスバリデーションを行っていますが、それは2/3、1/3のデータ分割をしていると思います。
3番目と5番目の数字(/の後)はMSEと思われます。少しの代数を行うと、5番目の数値の加重平均は、クロス検証の要約で報告されたルート平均二乗誤差とルート相対二乗誤差と一致します。私はより多くの情報を見つける場合、私はこの答えを更新する、
アゲイン(ではない、非常に正確な、しかし、私はそれがあることを期待したいとは思わない) - と私はからより決定的な情報を取得させていただきますその他。
答えを見つけましたか?私は同じ質問があります。私はWekaのリストに載せましたが、答えはまだありません。 http://weka.8497.n7.nabble.com/REPTree-regression-tree-meaning-of-leaf-node-information-td40575.html – zbicyclist