私はターゲット変数が左に歪んでいるデータセットを持っています。この変数のログのヒストグラムをプロットすると、普通の見栄えの良い分布になります。だから私はそれを変換するログを取るべきだと思いますか?モデルをlog(ターゲット)を使って予測するとき、予測関数を変更する必要がありますか?
私はそれを以下のmy_modelで試しました。しかし、Mean Absolute Errorを調べて評価したところ、変換されていないログに対しては実行されませんでした。
my_model <- lm(target ~ ,var1+var2+var3, data=ptrain)
my_model_log <- lm(log(target) ~ ,var1+var2+var3, data=ptrain)
my_predictions <- predict(my_model_log, interval="prediction", newdata=test_submission)
ログモデルを使用すると、my_predictionsのパフォーマンスが低下しました。
これは予想されますか?予測を行う前にターゲットがログを変換したことを伝えるために、predict()
に追加する必要があるパラメータはありますか?
?dput "RオブジェクトのASCIIテキスト表現をファイルまたは接続に書き込むか、または1つを使用してオブジェクトを再作成します。"データのファイルを作成したいのですか?よくわかりません? –
ああ。おそらくptrainは300kレコードと132バース以上のサンプルを持っています。 100または1000と言う小さなサンプルが使えますか? –
私が提供できるものは他にありますか? str(ptrain)、サンプル?ヒストグラムのビジュアル? –