hereからインスピレーションを受けています。Scikit learn:フィット感の良さ、データセットの分割、またはそのすべてを使用するか?
私の問題
だから私は3つの特徴とn個の観測とデータセットを持っています。私もn回の応答を持っています。基本的には、このモデルが適切かどうかを見たいと思います。
上記の質問から、この目的のためにR^2を使用してください。しかし、私は理解しているとは確信していません。
モデルに合わせて平均二乗誤差を計算できますか? train/test splitを使用する必要がありますか?
これらはすべて一般的な予測であるように見えますが、ここではそれをフィッティングするのがどれだけ良いかを見たいだけです。例えば
私はしばしば人々は、我々が得る最初のインスタンスでは
diabetes_X = diabetes.data[:, np.newaxis, 2]
# split X
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
# split y
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]
# instantiate and fit
regr = linear_model.LinearRegression()
regr.fit(diabetes_X_train, diabetes_y_train)
# MSE but based on the prediction on test
print('Mean squared error: %.2f' % np.mean((regr.predict(diabetes_X_test)-diabetes_y_test)**2))
のようなものをやって見るしかし、これは私のアイデア
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
diabetes = datasets.load_diabetes()
#my idea
regr = linear_model.LinearRegression()
regr.fit(diabetes_X, diabetes.target)
print(np.mean((regr.predict(diabetes_X)-diabetes.target)**2))
です:3890.4565854612724
後者の場合には、我々は2548.07
を取得しながら。最も正しいものはどれですか?
重要:私はこれを多回帰で働かせたいと思っています。これはただMWEです!