列車とテストデータセットをX_train y_trainとX_Test y_Testに分割する方法？

-4

だから私は成功した私はこれを使用70:30 の割合で電車&テストに私のデータセットを分割：今どのように私はそのようなことを X_trainとy_trainに電車やテストを分割し、X_testとy_testん列車とテストデータセットをX_train y_trainとX_Test y_Testに分割する方法？

df_glass['split'] = np.random.randn(df_glass.shape[0], 1) 
msk = np.random.rand(len(df_glass)) <= 0.7 
train = df_glass[msk] 
test = df_glass[~msk] 
print(train) 
print(test)

Xはデータベースの特徴を示し、yは応答を示しますか？

教師なし学習を行い、X_Trainとy_TrainにMLモジュールを適用する必要があります。

私のデータベースは次のようになります。 Database_snippet

出典

2017-11-16 Gaurav Singh

私はあなたが見つけて推測しますこれは理解するのに便利です。

import pandas as pd 
from sklearn.cross_validation import train_test_split 
from sklearn.linear_model import LinearRegression 

#importing dataset 
dataset = pd.read_csv('Salary_Data.csv') 
x = dataset.iloc[:, :-1].values 
y = dataset.iloc[:, 1].values 

#spliting the dataset into training and test set 
x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=1/3, random_state=0)

出典

2017-11-16 05:20:24

こんにちは、私は意味を理解するのを助けることができます： x = dataset.iloc [:,：-1] .values y = dataset.iloc [:, 1] .values データベースへのアクセス私の機能は最初の5列にあり、最後の列は応答です。 –

aここでいくつかの微調整とそれが働いた！ありがとう –

ilocは、基本的に、位置による選択のための整数位置ベースのインデックス作成です。私のモデルは1つの独立変数を持つ単純な線形回帰であり、データを線形方程式y = mx + bの後にx = "独立変数"とy = "従属変数"に分割していました。 –

Scikit-学び分割パンダのデータフレームのための便利なメソッドを持っている -

これは、分割を行います -

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(df[list_of_X_cols], df['y'], test_size=0.33, random_state=42)

出典

2017-11-16 04:39:26

私は初心者ですので、 "list_of_X_cols" –

に何を渡すべきかを私に説明できます。独立変数として扱う列のリスト。これらは基本的にデータの列名のコンマ区切りリストです –

素晴らしい！ありがとうございましたVivek –

列車とテストデータセットをX_train y_trainとX_Test y_Testに分割する方法？

答えて

関連する問題