高いRMSE（cv = 10）の予測モデルを使用する方法の正当性

私は予測モデルを作成しています。次のように可能な限り最高のモデルを取得するために、私はCV = 10とRMSEと異なるモデル間の比較のためにcross_val_scoreを使用していますが、私は取得しています次のとおりです。このことから高いRMSE（cv = 10）の予測モデルを使用する方法の正当性

         Lasso  SVR  NuSVR GradientBoostingRegressor RandomForestRegressor 
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389     0.792362

を、最良のモデルがベースとすることは明らかですRMSEはLassoですが、これで目に見えないデータを予測しようとすると、すべてのケースで31.07のような単一の数値しか得られません。 GradientBoostingRegressorは、すべてのモデルから最良の予測を提供します。

今、私はGradientBoostingRegressorモデルの方が、RMSEが高いのですが、どのようにして正当化するのだろうと思いますか？なげなわ

Disaster Number_left  county_state Total Destroyed pred_TD_actual \ 
0   279-17   Camden_MO    8  31.043349 
1   279-17   Cole_MO    13  31.043349 
2   279-17   Dent_MO    3  31.043349

出典

2017-08-11 Sanjeev Goyal

「31.07のような単一数字」とはどういう意味ですか？見えないデータにいくつのデータポイントがありますか？ –

私は目に見えないデータに29個のデータポイントを持ち、すべてのデータポイント用にラーソはパラメータを微調整しても予測として31.07を返します –

あなたのデータのサンプルを提供できますか？また、ラスソーの非ゼロ係数は何ですか？ –

StratifiedKFoldからの予測と

私のサンプルは目に見えないデータは、クロス検証を適用する前に、データをシャッフルくれすなわちのためのトリックを行いました。今、最小のCVスコアを持つモデルも、望ましい予測を提供します

出典

2017-08-23 07:03:19

高いRMSE（cv = 10）の予測モデルを使用する方法の正当性

答えて

関連する問題