データ・フレームX
には、2つのカテゴリ機能と41の数値機能があります。したがって、X
には合計43の機能があります。パンダ:ワン・オン・ホット・エンコードカテゴリ機能
ここでは、分類機能を数値レベルに変換して、RandomForest
クラシファイアで使用できるようにしたいと考えています。 0
と1
は、カテゴリの特徴の位置を示し、以下の私が行っている
:Xnew
は(63点の特徴を有する、今
Xnew = pd.concat([F1, F2, X.ix[:, 2:]])
:そして
import pandas as pd
X = pd.read_csv("train.csv")
F1 = pd.get_dummies(X.iloc[:, 0])
F2 = pd.get_dummies(X.iloc[:, 1])
は、私は、これら2つのデータフレームを連結しますF1
は18であり、F2
は4つの特徴を有し、残りの41はX
から
これは正しいですか?同じことをするより良い方法はありますか?共線性を避けるために、最初の列をF1
とF2
から削除する必要がありますか?
私は問題を参照してください、http://stats.stackexchange.com/、 – Merlin
にお問い合わせください。ここに投稿http://stats.stackexchange.com/questions/232541/pandas-how-to-one-hot-encode-categorical-features –