PythonとSci-Kitを使ってK-Meansクラスタリングを試みるのは初めてのことです。最終的なクラスタプロットの作成方法や、クラスタリングアルゴリズムを微調整する方法についてはわかりません。Kを細かく調整すると、クラスターが唯一の行になったときにクラスター化することができますか?
私の最終目標は、興味深いまたは有用な行動特性を描写するユーザカテゴリのクラスタリングを見つけることです。 (旧週間で数値)性別、年齢、国(すべて1つのホット符号化データがカテゴリであるため)、およびアカウント年齢
コード:
ATTEMPT 1:
入力を:
# Convert DataFrame to matrix
mat2 = all_dummy.as_matrix()
# Using sklearn
km2 = sklearn.cluster.KMeans(n_clusters=6)
km2.fit(mat2)
# Get cluster assignment labels
labels2 = km2.labels_
# Format results as a DataFrame
results2 = pd.DataFrame([all_dummy.index,labels2]).T
plot_x2 = results2[0].tolist()
plot_y2 = results2[1].tolist()
pyplot.scatter(plot_x2,plot_y2)
pyplot.show()
プロット:
固有の質問:
- このグラフのXとY軸とは何ですか?
- このグラフは何と言っていますか?
- 入力として6つのクラスタを配置すると、3つのクラスタしか表示されないのはなぜですか? (最初のコメントと更新されたコードとグラフによって回答された)
- 私が探している関係が何であるかわからない場合は、このグラフを微調整してより詳しく教えてください。