28個の列を持つムービーのデータセットがあります。その一つがジャンルです。このデータセットの各行について、列ジャンルの値は「アクション|アニメーション|コメディ|ファミリー|ファンタジー」の形式になります。 pandas.get_dummies()を使用してエンコードしたいが、列に複数の値があるので、そのような条件にどう対処するのか?単一のフィーチャの複数のカテゴリ値pythonを使用してバイナリに変換する方法
私はサンプルデータを添付しましたが、関連する列はDataです。 出力をOutputと期待しています。
しかし、私は、バイナリにカテゴリ値を変換するコードの下に使用する場合
import pandas as pd
Data = pd.read_csv('sample.csv', encoding = "ISO-8859-1")
DataConverted = pd.get_dummies(Data)
DataConverted.to_csv('sample_out.csv')
出力され、以下に示すように(Iつ以上の画像を投稿することができませんよ):
movie_title_Avatar ,movie_title_Pirates of the Caribbean: At World's End ,movie_title_Spectre ,genres_Action|Adventure|Fantasy,genres_Action|Adventure|Fantasy|Sci-Fi,genres_Action|Adventure|Thriller
1.0,0.0,0.0,0.0,1.0,0.0
0.0,1.0,0.0,1.0,0.0,0.0
0.0,0.0,1.0,0.0,0.0,1.0