-1

2つのデータセット、トレーニングデータセット、テストデータセットがあります。これらのデータセットについて予測したいと思います。 私の列車のデータセットは、これらの機能を備えています。トレーニングセットの特徴は、テストセットの機能とは異なります。

ID, name, age, Time of recruitment 

は今、私はテスト・データ・セットの「ステータス」を予測したいのですが、電車のデータ・セットの数:

ID, name, age, Time of recruitment, Time fired, status 

私のテストデータセットは、これらの機能を持っています機能はテストデータセットとは異なります。列車のデータセットには、テストデータセットには「時間がかかった」機能がありません。
どうすればいいですか?

+0

「ステータス」は何を表していますか?現在、同社と一緒にいる従業員と関係があるのか​​、それとも何か?もしそうなら、 'time_fired'は' status'との相関を持ち、あなたのモデルに悪影響を及ぼす可能性があります。私はあなたがこの場合にそれを使用しないことをお勧めしたいと思います。 –

答えて

0

モデルで特定の属性が使用されている場合は、テストセットで予測が必要です。

予測のために重要な/重要な属性である「時間が暴かれましたか?もしそうでなければ、訓練データにもそれを残すことができます。そうであれば、テストデータでもそれを収集する方法を見つける必要があります。

+0

お返事いただきありがとうございます。 yes 'Time fired'は予測に役立ちます。テストデータセットで収集する方法はわかりません。それを解決する方法はありますか?どのように列車のデータを使ってモデルを訓練し、その後、それをテストデータに使用しますか?ありがとうございました – martin

+0

テストデータにそれがない場合は、「時間をおきました」を得ることは困難です。これは、ターゲット変数 'status'を予測するのと同じくらい難しいものです。 2番目の質問については、機械学習プロセスの初心者を通過する必要があります。ありがとう。 – raghu

+0

ありがとう。おそらく2番目の質問のために私はあなたを誤解させました。列車とテストデータの属性が同じ場合、モデルの列車がどのようにデータを持っているのか、それから将来はテストデータに使用されるのが分かります。私の質問は、私の最初の質問のように、列車とテストデータの属性が異なる場合に関連していました。 – martin

関連する問題