データセットのデータは純粋にcharで構成されています。たとえば:matplotlibを使用したCharデータのパンダデータフレームのプロット
p,x,s,n,t,p,f,c,n,k,e,e,s,s,w,w,p,w,o,p,k,s,u
e,x,s,y,t,a,f,c,b,k,e,c,s,s,w,w,p,w,o,p,n,n,g
e,b,s,w,t,l,f,c,b,n,e,c,s,s,w,w,p,w,o,p,n,n,m
p,x,y,w,t,p,f,c,n,n,e,e,s,s,w,w,p,w,o,p,k,s,u
e,x,s,g,f,n,f,w,b,k,t,e,s,s,w,w,p,w,o,e,n,a,g
データの完全なコピーが
agaricus-lepiota.data in the uci machine learning datasets mushroom datasetで文字データを使用して(代わりの数値に設定されたデータを変換すること)matplotlibの経由のための可視化の方法があります見つけることができますか?ただ、可視化すなわちの任意の並べ替えのための
:
filename = 'mushrooms.csv'
df_mushrooms = pd.read_csv(filename, names = ["Classes", "Cap-Shape", "Cap-Surface", "Cap-Colour", "Bruises", "Odor", "Gill-Attachment", "Gill-Spacing", "Gill-Size", "Gill-Colour", "Stalk-Shape", "Stalk-Root", "Stalk-Surface-Above-Ring", "Stalk-Surface-Below-Ring", "Stalk-Colour-Above-Ring", "Stalk-Colour-Below-Ring", "Veil-Type", "Veil-Colour", "Ring-Number", "Ring-Type", "Spore-Print-Colour", "Population", "Habitat"])
#If there are any entires (rows) with any missing values/NaN's drop the row.
df_mushrooms.dropna(axis = 0, how = 'any', inplace = True)
df_mushrooms.plot.scatter(x = 'Classes', y = 'Cap-Shape')
私はそうは思わない。文字が何を表しているかは大きな疑問です。幸いにも、数値への変換は簡単です。 –
使用できる 'pd.factorize'メソッドがあります。または、カテゴリに変換します。 –
原則として 'plt.scatter([" "e"、 "w"、 "a"、 "e"]、["z"、 "t"、 "z"、 "u"]) 。特にマッシュルームのケースでは、そのようなプロットによって伝達される情報は何なのでしょうか?むしろ、茶色のキノコがどれくらい食べられるのか、量が関心のあるものなのかを知りたいのですか?スキャッターは、その組み合わせがデータにどれだけ頻繁に入っていても、ドットだけを表示します。 – ImportanceOfBeingErnest