私はclassificatorを構築するためのデータセットをしている:私は唯一の重要な機能を選択したいsklearnを使用して無駄な機能のリストを取得するには?
dataset = pd.read_csv(sys.argv[1], decimal=",",delimiter=";", encoding='cp1251')
X=dataset.ix[:, dataset.columns != 'class']
Y=dataset['class']
ので、私は実行します。Xは3000x130を持っていながら、
clf=svm.SVC(probability=True, gamma=0.017, C=5, coef0=0.00001, kernel='linear', class_weight='balanced')
model = SelectFromModel(clf, prefit=True)
X_train, X_test, Y_train, Y_test = cross_validation.train_test_split(X, Y, test_size=0.5, random_state=5)
y_pred=clf.fit(X_train, Y_train).predict(X_test)
X_new = model.transform(X)
だからX_newは形状3000x72を持っています。私はX_newに存在していない機能のリストを取得したいと思います。どうしたらいいですか?
Xはヘッダー付きのデータフレームでしたが、X_newは名前のないフィーチャー値のリストです。そのため、私はパンダと同じようにマージできません。 ありがとうございました!
'X_new'と' X'がどのように見えるのか、出力はどうなるのでしょうか? –