2017-11-16 24 views
-4

だから私は成功した私はこれを使用70:30 の割合で電車&テストに私のデータセットを分割:今どのように私はそのようなことを X_trainy_trainに電車やテストを分割し、X_testy_test列車とテストデータセットをX_train y_trainとX_Test y_Testに分割する方法?

df_glass['split'] = np.random.randn(df_glass.shape[0], 1) 
msk = np.random.rand(len(df_glass)) <= 0.7 
train = df_glass[msk] 
test = df_glass[~msk] 
print(train) 
print(test) 

Xはデータベースの特徴を示し、yは応答を示しますか?

教師なし学習を行い、X_Trainy_TrainにMLモジュールを適用する必要があります。

私のデータベースは次のようになります。 Database_snippet

答えて

0

私はあなたが見つけて推測しますこれは理解するのに便利です。

import pandas as pd 
from sklearn.cross_validation import train_test_split 
from sklearn.linear_model import LinearRegression 

#importing dataset 
dataset = pd.read_csv('Salary_Data.csv') 
x = dataset.iloc[:, :-1].values 
y = dataset.iloc[:, 1].values 

#spliting the dataset into training and test set 
x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=1/3, random_state=0) 
+0

こんにちは、私は意味を理解するのを助けることができます: x = dataset.iloc [:,:-1] .values y = dataset.iloc [:, 1] .values データベースへのアクセス私の機能は最初の5列にあり、最後の列は応答です。 –

+0

aここでいくつかの微調整とそれが働いた!ありがとう –

+0

ilocは、基本的に、位置による選択のための整数位置ベースのインデックス作成です。私のモデルは1つの独立変数を持つ単純な線形回帰であり、データを線形方程式y = mx + bの後にx = "独立変数"とy = "従​​属変数"に分割していました。 –

1

Scikit-学び分割パンダのデータフレームのための便利なメソッドを持っている -

これは、分割を行います -

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(df[list_of_X_cols], df['y'], test_size=0.33, random_state=42) 
+0

私は初心者ですので、 "list_of_X_cols" –

+0

に何を渡すべきかを私に説明できます。独立変数として扱う列のリスト。これらは基本的にデータの列名のコンマ区切りリストです –

+0

素晴らしい!ありがとうございましたVivek –

関連する問題