2017-04-30 6 views
2

私は一般的にPythonには新しく、線形回帰モデルを作るのに問題があります。大規模なExcelデータセット(.csv)からトレーニングとテストセットを作成する必要があります。スプリット.csvデータセットから線形回帰モデルを作成する最も良い方法は?

私はすでにデータセットを分割しました:

import pandas as pd 
import numpy as np 

df = pd.read_csv('C:/Dataset.csv') 
df['split'] = np.random.randn(df.shape[0], 1) 
split = np.random.rand(len(df)) <= 0.75 

training_set = df[split] 
testing_set = df[~split] 

にはどうすれば平均の平均誤差を用いて線形回帰モデルを作るために、この分割されたデータを使用できますか?

ありがとうございました。 Scikit-learn

+0

平均絶対誤差ですか? –

答えて

1

は簡単

import pandas as pd 
from sklearn import linear_model 
from sklearn.metrics import mean_absolute_error 

ロードデータセットであるとトレーニング/テストにデータを分割し、トレーニング/テストが

y_train = df.target[split] 
y_test = df.target[~split] 

線形を作成する設定に

X_train = df[split] 
X_test = df[~split] 

スプリットターゲット設定回帰オブジェクト

トレーニングを使用して、モデルが

regr.fit(X_train, y_train) 

y_pred = regr.predict(X_test) 

印刷係数

print('Coefficients: \n', regr.coef_) 

が印刷平均絶対誤差を

ターゲットを予測セット
regr = linear_model.LinearRegression() 

トレイン

print("Mean absolute error: %.2f" 
     % mean_absolute_error(y_test, y_pred)) 
関連する問題