2017-10-28 2 views
0

いくつかの基本を理解するのに問題がありますので、回帰ツリーが付いています。 私は、測定した樹木成長因子に対する環境パラメータの影響を調べるために、rpartによる分類ツリーを使用します。 ストーリーショート:rpart:トレーニングデータが必要です

データをトレーニングデータとテストデータに分割し、必要なときはいつですか?私の検索は、彼らがそれをやっていない、あるいはやっている例を示していましたが、私は裏話を見つけることができません。枝刈りを確認するだけですか?

ありがとうございました!

答えて

1

モデルをトレーニングする前に、トレーニングデータとテストデータに分割する必要があります。トレーニングデータはモデルの学習にを助け、テストデータはモデルの検証に役立ちます。

モデルを実行する前に分割が行われており、微調整や変更があった場合にモデルを再調整する必要があります。

ご存知かもしれませんが、postpruningのための一般的なプロセスは以下の通りです:

1) Split data into training & test (validation) sets 

2) Build decision tree from training set 

3) For every non-leaf node N, prune the subtree rooted by N and 
replace with the majority class. Then test accuracy with a 
validation set. This validation set could be the one defined before 
or not. 

このあなたは正しい軌道に乗って、はい、全体のデータセットはおそらくテストするために使用されてきたことを、おそらくされているすべての手段を剪定の精度

+0

ありがとうございました。私は今それをマスターしましたが、私のモデルはすべてのノードを枝刈りで失い、1ノードしか残っていません。テスト後、平均値と刈り込みセットのsdは本当に良いです、ちょうど奇妙に見える:D – Qiyuan

関連する問題