2016-11-27 4 views
1

が、私は2つのオプションがあります。fit_transform、sklearnのtransformとpandasのget_dummiesの違いは何ですか?私はsklearnとパンダでワンホット・エンコーディングを使用してデータ処理を行うと

第一の方法:train_dataはfit_transformを使用し、TEST_DATAは

第二の方法を変革使用していますか私はパンダを使用することができます両方のためのget_dummies

それらの違いは何ですか?そして、彼らは同じ効果を持っていますか?

は基本的には、OneHotEncoderとpandas.get_dummiesは、カテゴリ変数のうち、バイナリ変数を作成します両方のあなたの

+0

[pd.factorize、pd.get \ _dummies、sklearn.preprocessing.LableEncoderとOneHotEncoderのdiffを知りたいですか?](http://stackoverflow.com/questions/40336502/want-to-know- diff-between-pd-factor-pd-get-dummies-sklearn-preprocessing) – Romain

答えて

1

ありがとうございます。 例えば:

df = pd.DataFrame({'A': ["1", "1", "3"], 'B': ["2", "3", "1"], 
       'C': [1, 2, 3]}) 

print(pd.get_dummies(df, prefix=['col1', 'col2'])) 

がプリントアウトされます:get_dummiesはできませんが、非文字列変数を扱うことができますOneHotEncoder

C col1_1 col1_3 col2_1 col2_2 col2_3 
0 1  1.0  0.0  0.0  1.0  0.0 
1 2  1.0  0.0  0.0  0.0  1.0 
2 3  0.0  1.0  1.0  0.0  0.0 

を。また、OneHotEncoderは、パンダのデータフレームではなく、配列を返します。

+0

こんにちは、get_dummiesを文字列以外の変数と共に使用しようとすると、それも機能します。だから私は彼らの間に何の違いも見当たりません – hminle

関連する問題