私は2つの点のクラスタを持っています。クラスタ化手法を適用する前に、各クラスタにどの点が属するべきかを正確に知っていますが、データにラベルを付ける唯一の方法は、k-meansなどのクラスタリング手法です。私が抱いている状況が困惑しているように思えるのであれば、それに焦点を当てないで、k-手段でこの潜在的な問題にもっと興味を持っています。しかし、小さな問題がある、私はポイントの二つのクラスタを取得したい不均一クラスタによるクラスタリング(k-means)
:
は私のデータは、この(X-Y平面上のシンプルな2Dの点)のように見えると言います。私はk平均アルゴリズムを実行すると、私はこのようなもので終わる:
私は、これは単なるスケッチの例で追加する必要があります。
私が抱えている問題は、アルゴリズムが実行される前にクラスタ内に非常に不均等な点数があり、最後にアルゴリズムクラスタリングで重要な結果が得られ、データが不明瞭になる点です。もちろん、これはクラスタがぼんやりと接近している場合にのみ問題になりますが、クラスターの異なる母集団サイズをうまく処理するk-meansバリアントやその他のクラスタリングアルゴリズムがあるかどうか疑問に思っていました。私はそのようなことを見つけようとしましたが、「不均一なk-meansクラスターの集団」などの間違った検索用語を使用していることを恐れ、同様の言い回しは、より速いk-meansの実装と他の統計分析との組み合わせに関する論文を得るだけです。
ちょっとした心配をするだけです。私はk-meansを何度か実行しており、その結果は常に2つのビジュアルクラスターの間にクラスター重心を持つ上のスケッチであった。
これが単なるk-meansの欠点である場合(私はそうであることが分かります)、それを受け入れることができます。
どのように初期重心を選択していますか? –
@AbhishekBansalランダムに。 – ZoSal
密度ベース**または**階層クラスタリング**(または他の100個のクラスタリングアルゴリズム)を試しましたか? –