2016-03-23 15 views
1

データをトレーニング(70%)、検証(15%)、テスト(15%)に分けてモデルを作成しようとしています。モデルを実行した後、私はシード値を変更し続けるたびに、それは私の出力に影響を与えています。これにどのように対処しますか?これは期待される行動ですか?もしそうなら、どうすれば最終的な成果として選ばれるべきかの結論に至ることができますか?シード値はRのトレーニングデータの結果に影響しますか?

答えて

2

set.seed()は、ランダム値の生成の開始点を定義します。同じシードの分析を実行すると、同じ結果が返されます。異なるシードを使用すると、出力が異なることがあります。あなたのケースではおそらく、トレーニング、検証、テストの異なる分割のためです。

差が許容範囲内であれば、モデルはトレーニング、テスト、検証の各スプリットに対して堅牢です。相違が大きい場合、モデルは堅牢ではなく、信頼されるべきではありません。データの分割方法を変更する必要があります(階層化が役立つ可能性があります)。またはモデルを改訂する必要があります。

+0

@ thierry。ありがとう – Harish

関連する問題