Pythonマシンでラベルと機能を学習する

10,000個の観測値と50個のフィーチャと1個のラベルを持つデータセットが与えられた場合、X_train、y_train、X_test、およびy_testの次元はどのくらいでしょうか？75％/ 25％の列車/テスト分割を仮定しますか？それは、第二の1Pythonマシンでラベルと機能を学習する

X_train:(2500, 50) 
y_train: (2500,) 
X_test: (7500, 50) 
y_test: (7500,)

または

X_train: (7500, 50) 
y_train: (7500,) 
X_test: (2500, 50) 
y_test: (2500,)

出典

2017-09-02 Darkspeed483

でなければなりません。これは、データセットの75％が訓練および試験のための残りのために使用されることを意味

を75％/ 25％の列車/テスト分割を仮定

。あなたは10000の観測値を持っています。そのため、トレーニングでは7500、テストでは2500です。

一般に、A/Bと言うとき、分割はX%/Y%です。 AはX%、BはY%となります。常に。そしてまた、X+Yは100

出典

2017-09-02 16:02:29 Laurie

あなたはsklearnからtrain_test_splitで自分自身のために見ることができるようになります。

import numpy as np 
from sklearn.model_selection import train_test_split 

n = 10000 
p = 50 
X = np.random.random((n,p)) 
y = np.random.randint(0,2,n) 

test = 0.25 
d = {} 
d["X_train"], d["X_test"], d["y_train"], d["y_test"] = train_test_split(X,y,test_size=test) 

for split in d: 
    print(split, d[split].shape) 

X_train (7500, 50) 
X_test (2500, 50) 
y_train (7500,) 
y_test (2500,)

出典

2017-09-03 00:26:27

Pythonマシンでラベルと機能を学習する

答えて

関連する問題