2017-08-11 10 views
0

私は予測モデルを作成しています。次のように可能な限り最高のモデルを取得するために、私はCV = 10とRMSEと異なるモデル間の比較のためにcross_val_scoreを使用していますが、私は取得しています次のとおりです。このことから高いRMSE(cv = 10)の予測モデルを使用する方法の正当性

         Lasso  SVR  NuSVR GradientBoostingRegressor RandomForestRegressor 
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389     0.792362 

を、最良のモデルがベースとすることは明らかですRMSEはLassoですが、これで目に見えないデータを予測しようとすると、すべてのケースで31.07のような単一の数値しか得られません。 GradientBoostingRegressorは、すべてのモデルから最良の予測を提供します。

今、私はGradientBoostingRegressorモデルの方が、RMSEが高いのですが、どのようにして正当化するのだろうと思いますか?なげなわ

Disaster Number_left  county_state Total Destroyed pred_TD_actual \ 
0   279-17   Camden_MO    8  31.043349 
1   279-17   Cole_MO    13  31.043349 
2   279-17   Dent_MO    3  31.043349 
+0

「31.07のような単一数字」とはどういう意味ですか?見えないデータにいくつのデータポイントがありますか? –

+0

私は目に見えないデータに29個のデータポイントを持ち、すべてのデータポイント用にラーソはパラメータを微調整しても予測として31.07を返します –

+0

あなたのデータのサンプルを提供できますか?また、ラスソーの非ゼロ係数は何ですか? –

答えて

0

StratifiedKFoldからの予測と

私のサンプルは目に見えないデータは、クロス検証を適用する前に、データをシャッフルくれすなわちのためのトリックを行いました。今、最小のCVスコアを持つモデルも、望ましい予測を提供します

関連する問題