2016-10-01 10 views
2

を考えると2つの単純なセット設定:R計算テストMSEトレーニングセットとテストから訓練を受けたモデル与えられたが、データの

head(training_set) 
     x   y 
    1 1 2.167512 
    2 2 4.684017 
    3 3 3.702477 
    4 4 9.417312 
    5 5 9.424831 
    6 6 13.090983 

head(test_set) 
     x  y 
    1 1 2.068663 
    2 2 4.162103 
    3 3 5.080583 
    4 4 8.366680 
    5 5 8.344651 

を私はトレーニングデータの線形回帰直線に適合し、かつそれを使用したいですラインが適合すると、テストデータ上の残差の「テストMSE」または平均二乗誤差を計算するためにライン(または係数)を使用します。この場合

model = lm(y~x,data=training_set) 
train_MSE = mean(model$residuals^2) 
test_MSE = ? 

答えて

4

MSPE (mean squared prediction error)それを呼び出すために、より正確である:

mean((test_set$y - predict.lm(model, test_set))^2) 

すべてのモデルは、予測を目指し、これは、より有用な尺度です。私たちは、最小限のMSPEを持つモデルを求めています。

実際には、予備のテストデータセットがある場合、上記のようにMSPEを直接計算することができます。しかし、非常に多くの場合、予備のデータはありません。統計では、leave-one-out cross-validationはトレーニングデータセットからのMSPEの推定値です。

Mallows's statisticAICのように、予測エラーを評価するための統計情報もいくつかあります。

+0

(+1)しかし、APSEについてのポイントは何ですか?私はそれを聞いたことがありませんでした(私はそれを平均の代わりに平均と呼ぶ理由を推測することができます)。 –

+0

MSPEは、残差の平方の平均に類似していますか? – BDillan

関連する問題