2017-12-12 15 views
0

私はPCAを使用して次元削減を行っています。私のトレーニングデータは3300次元の1200000レコードです。ここではモデルPCAを新しいデータに適用するとパフォーマンスが低下しました

X, y = load_data(f_file1) 
valid_X, valid_y = load_data(f_file2) 

pca = PCA(n_components=n_compo, whiten=True) 
X = pca.fit_transform(X) 
valid_input = pca.transform(valid_X) 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42) 
clf = DecisionTreeClassifier(criterion='entropy', max_depth=30, 
      min_samples_leaf=2, class_weight={0: 10, 1: 1}) # imbalanced class 
clf.fit(X_train, y_train) 

print(clf.score(X_train, y_train)*100, 
     clf.score(X_test, y_test)*100, 
     recall_score(y_train, clf.predict(X_train))*100, 
     recall_score(y_test, clf.predict(X_test))*100, 
     precision_score(y_train, clf.predict(X_train))*100, 
     precision_score(y_test, clf.predict(X_test))*100, 
     auc(*roc_curve(y_train, clf.predict_proba(X_train)[:, 1], pos_label=1)[:-1])*100, 
     auc(*roc_curve(y_test, clf.predict_proba(X_test)[:, 1], pos_label=1)[:-1])*100) 

print(precision_score(valid_y, clf.predict(valid_input))*100, 
     recall_score(valid_y, clf.predict(valid_input))*100, 
     accuracy_score(valid_y, clf.predict(valid_input))*100, 
     auc(*roc_curve(valid_y, clf.predict_proba(valid_input)[:, 1], pos_label=1)[:-1])*100) 

を訓練するために私のコードは出力だからリコールと精度は0です

99.80, 99.32, 99.87, 99.88, 99.74, 98.78, 99.99, 99.46 
0.00, 0.00, 97.13, 49.98, 700.69 

です。なぜPCAがデータを検証する上でうまくいかないと思われるのか、過大なモデルになったのでしょうか?

+3

X_trainにのみpcaをフィットさせ、X_testでtransform()を実行する必要があります。現在、あなたはX全体でPCAをやっていて、それを列車とテストに分割します。これは過当になります。 –

答えて

1

それはあまりにも多くのです

max_depth=30 

ので、おそらくそれがoverfittedています。

PCAディメンションはどのように選択しましたか?あなたは固有ベクトル/固有値のアプローチを経由して取得することができ、最適な値:あなたはラインが非常にゼロまで低下xの値によって選択

data = data.values 
mean = np.mean(data.T, axis=1) 
demeaned = data - mean 
evals, evecs = np.linalg.eig(np.cov(demeaned.T)) 
order = evals.argsort()[::-1] 

evals = evals[order] 

plt.plot(evals) 
plt.grid(True) 
plt.savefig('_!pca.png') 

最適値。

関連する問題