2017-09-02 16 views
0

10,000個の観測値と50個のフィーチャと1個のラベルを持つデータセットが与えられた場合、X_train、y_train、X_test、およびy_testの次元はどのくらいでしょうか?75%/ 25%の列車/テスト分割を仮定しますか?それは、第二の1Pythonマシンでラベルと機能を学習する

X_train:(2500, 50) 
y_train: (2500,) 
X_test: (7500, 50) 
y_test: (7500,) 

または

X_train: (7500, 50) 
y_train: (7500,) 
X_test: (2500, 50) 
y_test: (2500,) 

答えて

0

でなければなりません。これは、データセットの75%が訓練および試験のための残りのために使用されることを意味

を75%/ 25%の列車/テスト分割を仮定

。 あなたは10000の観測値を持っています。そのため、トレーニングでは7500、テストでは2500です。

一般に、A/Bと言うとき、分割はX%/Y%です。 AX%BY%となります。常に。そしてまた、X+Yは100

0

あなたはsklearnからtrain_test_splitで自分自身のために見ることができるようになります。

import numpy as np 
from sklearn.model_selection import train_test_split 

n = 10000 
p = 50 
X = np.random.random((n,p)) 
y = np.random.randint(0,2,n) 

test = 0.25 
d = {} 
d["X_train"], d["X_test"], d["y_train"], d["y_test"] = train_test_split(X,y,test_size=test) 

for split in d: 
    print(split, d[split].shape) 

X_train (7500, 50) 
X_test (2500, 50) 
y_train (7500,) 
y_test (2500,) 
関連する問題