列車とテスト行列を構築するために、いくつかのカテゴリデータをベクトル化したいと思います。カテゴリデータをベクトル化する方法
私は都市に依存し、1または0で行ごとにベクトルを持っていると思い、私は85の都市があると私は、282520行の行列を取得したいと思い、すべての行が
[1 0 0 ..., 0 0 0]
ようなベクターであります
print(df['city'])
0 METROPOLITANA DE SANTIAGO
1 METROPOLITANA DE SANTIAGO
2 METROPOLITANA DE SANTIAGO
3 METROPOLITANA DE SANTIAGO
4 COQUIMBO
5 SANTIAGO
6 SANTIAGO
7 METROPOLITANA DE SANTIAGO
8 METROPOLITANA DE SANTIAGO
9 METROPOLITANA DE SANTIAGO
10 BIO BIO
11 COQUIMBO
... ...
282520 METROPOLITANA DE SANTIAGO
Name: city, dtype: object
これは私が試したものです::ので、その結果、すべての都市は、列でなければなりません
from sklearn import preprocessing
list_city = getList(df,'city')
le = preprocessing.LabelEncoder()
le.fit(list_city)
print(le.transform(['AISEN']))
print(le.transform(['TARAPACA']))
print(le.transform(['AISEN DEL GENERAL CARLOS IBANEZ DEL CAMP']))
私は次の出力を取得しています:
[0]
[63]
[1]
問題は、私はちょうど街のインデックスを取得しています、私はデータをベクトル化する方法を提案を探していますということです。
あなたは[OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessingを探していないよろしいです.OneHotEncoder)?それはあなたが私に探しているもののように聞こえる。 – patrick