0

k = 2のkmeansで等しいクラスターサイズの出力を得るための修正Lloydのアルゴリズムを使用しています。続き は擬似コードです:等価クラスタサイズ出力を与えるk = 2のKmeansアルゴリズム

- Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) 
- Repeat below steps until convergence 
    - Sort all points xi according to ascending values of ||xi-c1|| - ||xi-c2||, i.e. differences in distances to the first and the second cluster 
    - Put top 50% points in cluster 1 , others in cluster 2 
    - Recalculate centroids as average of the allocated points (as usual in Lloyd's) 

さて、上記のアルゴリズムは、経験的に私のために正常に動作している:

  1. それはバランスの取れたクラスタ
  2. を与えることは、常に客観

は、このようなを持って減少しますこれまでにアルゴリズムが提案されたり、分析されたりしていますか?私はいくつかの参考にしてもらえますか? 2つの以上のクラスタのための

答えて

2

より一般的なバージョンがここで説明されています

https://elki-project.github.io/tutorial/same-size_k_means

私は文献に様々なサイズの制約付きのk-means法を数回見てきましたが、私は、すべての参照を持っていませんハンド。私はこれを確信していません。クラスタを同じサイズにすることは、意図的に最悪の近似を選択するという意味で、最小二乗法近似IMHOを見つけるk-手段の考え方と矛盾します。

+0

参考にしていただきありがとうございます。 私の考えでは、私のアルゴリズムと参考文献との間に重大な違いがあります:k = 2の場合、ポイント割り当てステップは上記のように正確に解決できますが、より一般的なk> 2では、事件である。したがって、上記のリンクでは、k = 2のときに不要な局所点交換手順を使用しています。 k = 2の場合の証明がどこかに存在するかどうかを知りたがっています。 – vervenumen

+0

k = 2の場合は特に興味がありません。なぜなら、通常、より多くのクラスタを探しているからです。私は間違いなく、メトリックインデックス作成でk = 2のこの種の操作を見てきました。 –

関連する問題