2つのデータセット、トレーニングデータセット、テストデータセットがあります。これらのデータセットについて予測したいと思います。 私の列車のデータセットは、これらの機能を備えています。トレーニングセットの特徴は、テストセットの機能とは異なります。
ID, name, age, Time of recruitment
は今、私はテスト・データ・セットの「ステータス」を予測したいのですが、電車のデータ・セットの数:
ID, name, age, Time of recruitment, Time fired, status
私のテストデータセットは、これらの機能を持っています機能はテストデータセットとは異なります。列車のデータセットには、テストデータセットには「時間がかかった」機能がありません。
どうすればいいですか?
「ステータス」は何を表していますか?現在、同社と一緒にいる従業員と関係があるのか、それとも何か?もしそうなら、 'time_fired'は' status'との相関を持ち、あなたのモデルに悪影響を及ぼす可能性があります。私はあなたがこの場合にそれを使用しないことをお勧めしたいと思います。 –