-1

私はトレーニングとテストのデータセットを別々に受け取っています。両方のデータセットは全く同じ構造(同じ列/機能)を持っています。トレーニングデータセットには、すべての行に欠損値がある列があります。予測モデルを作ろうと思っていたら、それらの列が全く情報を与えていないので、それらの列を単に削除することができます。しかし、問題は、同じ列にテストデータセットにいくつかの値があることです。したがって、トレーニングデータセットからこれらの列を削除すると、テストデータセットからこれらの列も削除する必要があります。私もそうすることができますが、問題はそのような列の数がかなり多いことです(合計250列のうち約150行です)。私はそれらの列を削除することに非常に躊躇しています。これらの列を保存するためのアイデアや解決策は、本当に役立ちます。ありがとう!トレーニングデータにはすべての値が欠落していますが、テストデータの同じ列にはいくつかの値があります。

+2

に短い答えを補間しようとすることができます。はい。これらの列は、推論にどのように使用できるのかを知るために何も提供していないためです。これはこちらのトピックではありませんので、https://stats.stackexchange.comに投稿してください。 –

答えて

0

あなたの電車/試験データが適切に分割されている場合は、そのいずれかで無用の列が交互に他の

に無用である、あなたが不足しているデータ

関連する問題