2011-01-30 10 views
2

RandomTree設定でminNumフィールドを観察したとき、私はwekaで遊んでいました。私は "葉の中のインスタンスの最小総重量"という記述を読んだ。 しかし、私はそれが何を意味するのか本当に理解できませんでした。についてWekaのRandomTreeについて

私はその番号で遊んでいました。私はそれを増やすと、そのようにして生成されたツリーのサイズが小さくなることを認識しました。なぜこのようなことが起こっているのかについては関係がありませんでした。

ご意見やご感想をお寄せください。

答えて

2

これは、リーフノード上のインスタンスの最小数(J48のようなデシジョンツリーではデフォルトで2であることが多い)と関係がある。このパラメータを高く設定するほど、インスタンスの数が少ない多くの葉があるため、ツリー構造が非常に細かくなるため、ツリーがより一般的になります。ここで

-Mオプションは、結果ツリーの大きさに影響を与える可能性がある方法を示しirisデータセット、上の2つの例です:追記として

$ weka weka.classifiers.trees.RandomTree -t iris.arff -i 

petallength < 2.45 : Iris-setosa (50/0) 
petallength >= 2.45 
| petalwidth < 1.75 
| | petallength < 4.95 
| | | petalwidth < 1.65 : Iris-versicolor (47/0) 
| | | petalwidth >= 1.65 : Iris-virginica (1/0) 
| | petallength >= 4.95 
| | | petalwidth < 1.55 : Iris-virginica (3/0) 
| | | petalwidth >= 1.55 
| | | | sepallength < 6.95 : Iris-versicolor (2/0) 
| | | | sepallength >= 6.95 : Iris-virginica (1/0) 
| petalwidth >= 1.75 
| | petallength < 4.85 
| | | sepallength < 5.95 : Iris-versicolor (1/0) 
| | | sepallength >= 5.95 : Iris-virginica (2/0) 
| | petallength >= 4.85 : Iris-virginica (43/0) 

Size of the tree : 17 

$ weka weka.classifiers.trees.RandomTree -M 6 -t iris.arff -i 

petallength < 2.45 : Iris-setosa (50/0) 
petallength >= 2.45 
| petalwidth < 1.75 
| | petallength < 4.95 
| | | petalwidth < 1.65 : Iris-versicolor (47/0) 
| | | petalwidth >= 1.65 : Iris-virginica (1/0) 
| | petallength >= 4.95 : Iris-virginica (6/2) 
| petalwidth >= 1.75 
| | petallength < 4.85 : Iris-virginica (3/1) 
| | petallength >= 4.85 : Iris-virginica (43/0) 

Size of the tree : 11 

は、ランダム木は袋詰めに依存している、のサブサンプリングがありますを意味しています属性(各ノードで分割するためにランダムに選択されたK)。しかし、REPTreeとは異なり、(RandomForestのような)枝刈りはありませんので、非常にノイズの多いツリーになるかもしれません。

関連する問題