2016-09-12 13 views
0

誰かがこの問題を解決できますか?次の混合変数データのためのKMeansクラスタリング

私はKMeansのクラスタリングの概念を学んでいます。私は変数が連続している場合にクラスタリングする方法を知っています。しかし、このデータセットには、性別や郵便番号のようなカテゴリ/離散変数が含まれています。

Sno Age Gender Zip Salary 
1 26 0 9822 100 
2 38 1 9822 700 
3 19 1 9822 100 
4 64 0 9810 2500  
5 53 1 9810 1200 
6 75 1 9810 1800 
7 19 0 9822 75 
8 36 1 9822 350 
9 42 1 9875 1800 
10 41 0 9875 750 

答えて

0

K-Meansは数値データでのみ動作します。

カテゴリデータの平均をとることはまったく意味がないため、カテゴリデータのK平均は失敗します。どちらも距離はありません。一部の人々は、1つのホットエンコーディングを使用してK平均でデータを実行します。しかし、これも適切なクラスターを与えません。

このような問題を解決するには、K-Prototypeアルゴリズムと呼ばれるK-Meansの別のバリエーションを見てください。このアルゴリズムは、カテゴリデータと数値データをうまく組み合わせて動作します。

チェックアウトhttps://pypi.python.org/pypi/kmodes/

このリンクは、紙と、このアルゴリズムを使用するためのpythonパッケージが含まれています。理解するのも簡単です。

関連する問題