rpart：トレーニングデータが必要です

いくつかの基本を理解するのに問題がありますので、回帰ツリーが付いています。私は、測定した樹木成長因子に対する環境パラメータの影響を調べるために、rpartによる分類ツリーを使用します。ストーリーショート：rpart：トレーニングデータが必要です

データをトレーニングデータとテストデータに分割し、必要なときはいつですか？私の検索は、彼らがそれをやっていない、あるいはやっている例を示していましたが、私は裏話を見つけることができません。枝刈りを確認するだけですか？

ありがとうございました！

出典

2017-10-28 Qiyuan

モデルをトレーニングする前に、トレーニングデータとテストデータに分割する必要があります。トレーニングデータはモデルの学習にを助け、テストデータはモデルの検証に役立ちます。

モデルを実行する前に分割が行われており、微調整や変更があった場合にモデルを再調整する必要があります。

ご存知かもしれませんが、postpruningのための一般的なプロセスは以下の通りです：

1) Split data into training & test (validation) sets 

2) Build decision tree from training set 

3) For every non-leaf node N, prune the subtree rooted by N and 
replace with the majority class. Then test accuracy with a 
validation set. This validation set could be the one defined before 
or not.

このあなたは正しい軌道に乗って、はい、全体のデータセットはおそらくテストするために使用されてきたことを、おそらくされているすべての手段を剪定の精度

出典

2017-10-28 19:37:20 Neoromanzer

ありがとうございました。私は今それをマスターしましたが、私のモデルはすべてのノードを枝刈りで失い、1ノードしか残っていません。テスト後、平均値と刈り込みセットのsdは本当に良いです、ちょうど奇妙に見える：D – Qiyuan

rpart：トレーニングデータが必要です

答えて

関連する問題