いくつかの基本を理解するのに問題がありますので、回帰ツリーが付いています。 私は、測定した樹木成長因子に対する環境パラメータの影響を調べるために、rpartによる分類ツリーを使用します。 ストーリーショート:rpart:トレーニングデータが必要です
データをトレーニングデータとテストデータに分割し、必要なときはいつですか?私の検索は、彼らがそれをやっていない、あるいはやっている例を示していましたが、私は裏話を見つけることができません。枝刈りを確認するだけですか?
ありがとうございました!
いくつかの基本を理解するのに問題がありますので、回帰ツリーが付いています。 私は、測定した樹木成長因子に対する環境パラメータの影響を調べるために、rpartによる分類ツリーを使用します。 ストーリーショート:rpart:トレーニングデータが必要です
データをトレーニングデータとテストデータに分割し、必要なときはいつですか?私の検索は、彼らがそれをやっていない、あるいはやっている例を示していましたが、私は裏話を見つけることができません。枝刈りを確認するだけですか?
ありがとうございました!
モデルをトレーニングする前に、トレーニングデータとテストデータに分割する必要があります。トレーニングデータはモデルの学習にを助け、テストデータはモデルの検証に役立ちます。
モデルを実行する前に分割が行われており、微調整や変更があった場合にモデルを再調整する必要があります。
ご存知かもしれませんが、postpruningのための一般的なプロセスは以下の通りです:
1) Split data into training & test (validation) sets
2) Build decision tree from training set
3) For every non-leaf node N, prune the subtree rooted by N and
replace with the majority class. Then test accuracy with a
validation set. This validation set could be the one defined before
or not.
このあなたは正しい軌道に乗って、はい、全体のデータセットはおそらくテストするために使用されてきたことを、おそらくされているすべての手段を剪定の精度
ありがとうございました。私は今それをマスターしましたが、私のモデルはすべてのノードを枝刈りで失い、1ノードしか残っていません。テスト後、平均値と刈り込みセットのsdは本当に良いです、ちょうど奇妙に見える:D – Qiyuan