2017-01-24 13 views
0

私はクラスタ評価でSSB計算で少し混乱しています enter image description here関数kmeansクラスタ評価

どこ

|Ci| is the size of cluster i 
ci is the centroid of cluster i 
c is the centroid of the overall data 

この「全体的なデータの重心」とは何ですか? どこでも全体のデータの重心として言及されています。

私たちは計算のために取る初期セントロイドですか?

EDIT

anony-ムースの答えから、もう少し明確化。

クラスタリングで1回繰り返したとします。

step 1: k =2, select random centroids(Let my random centroids be (2,1,3) and (3,1,1)) 
step 2: do clustering(Now 2 clusters are formed) 
step 3: then find new centroids(by averaging data for each cluster, After averaging let my new clusters be (2.3,1.5,3) and (6.7,1,2)) 

これでSSBを計算する必要があります。

は今、私はその価値があること聞かせて全体のデータ(入力データ)のための重心を計算する必要があります(25,30.5,78)

total no of values in c1 = 20 
total no of values in c2 = 30 

ssbc1 = 20*(dist([2.3,1.5,3],[25,30.5,78]))^2 
ssbc1 = 30*(dist([6.7,1,2],[25,30.5,78]))^2 
total ssb = ssbc1+ssbc2 

が、それはこのようですか?

答えて

0

重心は各次元の平均です。

"すべてのデータのうち"クラスタリングはではなく、が使用されています。

+0

okです。あなたは私の編集を見ていただけますか? –