は興味深いことに、私は両方のStackOverflowや他のサイトでこの程度異なった答えの多くを参照してください。私のトレーニングデータセットで作業している間トレインアンドテストデータを転用に使用できますか?
を、私は決定木モデルを使用して、特定の列の欠損値を帰属しました。だから私の質問です。転用のためのモデル(予測ではなく)を作成するのに、利用可能なすべてのデータ(Training & Test)を使用するのは公正でしょうか?また、テストセットの作業を開始したら、テストセットデータのみを使用するか、トレーニングセットで作成した同じ代償モデルを使用して代用するか、使用可能なすべてのデータを使用して代用モデルを再テストする必要がありますか?
予測モデルトレーニングに私のテストセットに触れていない限り、私は、代償のようなものの残りのデータを使っても大丈夫だと思います。しかし、それは根本的なルールを破るだろう。思考?