おそらく非常にばかな質問ですので、私にとっては簡単ですが、ここに行きます。sklearnのRandomForestRegressorを使用した予測
は、だからここに...私のデータがどのように見えるように
date,locale,category,site,alexa_rank,sessions,user_logins
20170110,US,1,google,1,500,5000
20170110,EU,1,google,2,400,2000
20170111,US,2,facebook,2,400,2000
...とします。これは私が思いついたおもちゃのデータセットですが、元のデータに似ています。
sklearnのRandomForestRegressor
を使用して、特定のサイトのユーザーログインとセッション数を予測するモデルを構築しようとしています。
ラベルにカテゴリをエンコードして、今年の最初の8か月間に自分のモデルを訓練したので、9月のログインとセッションを予測したいと思います。ログインに訓練されたモデルとセッションで訓練されたモデルを作成しました。
私のテストデータセットが同じ形式である:
date,locale,category,site,alexa_rank,sessions,user_logins
20170910,US,1,google,1,500,5000
20170910,EU,1,google,2,400,2000
20170911,US,2,facebook,2,400,2000
理想的には私は私が予測し必要な列せずに、テストデータセットに合格したいのですが、RandomForestRegressorが間に異なっている寸法について不平を言いますトレーニングとテストセット。私は現在の形でテストデータセットを渡す場合
は、モデルは、そうでなければ小さな変化に正確ほとんどの場合sessions
とuser_logins
列の値と値を予測します。
テストデータのsessions
とuser_logins
の列をゼロにしてモデルに渡しましたが、モデルはほぼすべてゼロを予測しました。
- ワークフローは正しいですか? RandomForestRegressorを正しく使用していますか?
- テストデータセットに実際の値が含まれている場合、どのように実際の値に近づいていますか?テストデータの実際の値が予測に使用されていますか?
- モデルが正しく機能する場合、予測する列をゼロにすると、同じ値が予測されないはずです(
sessions
およびuser_logins
)。
コードを追加できますか? –