0
私は予測モデルを作成しています。次のように可能な限り最高のモデルを取得するために、私はCV = 10とRMSEと異なるモデル間の比較のためにcross_val_scoreを使用していますが、私は取得しています次のとおりです。このことから高いRMSE(cv = 10)の予測モデルを使用する方法の正当性
Lasso SVR NuSVR GradientBoostingRegressor RandomForestRegressor
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389 0.792362
を、最良のモデルがベースとすることは明らかですRMSEはLassoですが、これで目に見えないデータを予測しようとすると、すべてのケースで31.07のような単一の数値しか得られません。 GradientBoostingRegressorは、すべてのモデルから最良の予測を提供します。
今、私はGradientBoostingRegressorモデルの方が、RMSEが高いのですが、どのようにして正当化するのだろうと思いますか?なげなわ
Disaster Number_left county_state Total Destroyed pred_TD_actual \
0 279-17 Camden_MO 8 31.043349
1 279-17 Cole_MO 13 31.043349
2 279-17 Dent_MO 3 31.043349
「31.07のような単一数字」とはどういう意味ですか?見えないデータにいくつのデータポイントがありますか? –
私は目に見えないデータに29個のデータポイントを持ち、すべてのデータポイント用にラーソはパラメータを微調整しても予測として31.07を返します –
あなたのデータのサンプルを提供できますか?また、ラスソーの非ゼロ係数は何ですか? –