2016-07-28 8 views
1

私は2つの点のクラスタを持っています。クラスタ化手法を適用する前に、各クラスタにどの点が属するべきかを正確に知っていますが、データにラベルを付ける唯一の方法は、k-meansなどのクラスタリング手法です。私が抱いている状況が困惑しているように思えるのであれば、それに焦点を当てないで、k-手段でこの潜在的な問題にもっと興味を持っています。しかし、小さな問題がある、私はポイントの二つのクラスタを取得したい不均一クラスタによるクラスタリング(k-means)

enter image description here

は私のデータは、この(X-Y平面上のシンプルな2Dの点)のように見えると言います。私はk平均アルゴリズムを実行すると、私はこのようなもので終わる:

enter image description here

私は、これは単なるスケッチの例で追加する必要があります。

私が抱えている問題は、アルゴリズムが実行される前にクラスタ内に非常に不均等な点数があり、最後にアルゴリズムクラスタリングで重要な結果が得られ、データが不明瞭になる点です。もちろん、これはクラスタがぼんやりと接近している場合にのみ問題になりますが、クラスターの異なる母集団サイズをうまく処理するk-meansバリアントやその他のクラスタリングアルゴリズムがあるかどうか疑問に思っていました。私はそのようなことを見つけようとしましたが、「不均一なk-meansクラスターの集団」などの間違った検索用語を使用していることを恐れ、同様の言い回しは、より速いk-meansの実装と他の統計分析との組み合わせに関する論文を得るだけです。

ちょっとした心配をするだけです。私はk-meansを何度か実行しており、その結果は常に2つのビジュアルクラスターの間にクラスター重心を持つ上のスケッチであった。

これが単なるk-meansの欠点である場合(私はそうであることが分かります)、それを受け入れることができます。

+0

どのように初期重心を選択していますか? –

+0

@AbhishekBansalランダムに。 – ZoSal

+0

密度ベース**または**階層クラスタリング**(または他の100個のクラスタリングアルゴリズム)を試しましたか? –

答えて

2

K-Meansアルゴリズムの出力は、選択した最初の重心に大きく依存します。相互に近い重心を選択すると、得たクラスタは歪んでしまいます。

さらに、真のクラスタのデータポイントの数が不均衡な場合、最初の重心をランダムに選択することによって、同じクラスタから最初の重心を選択する可能性が高くなります。

したがって、できるだけ離れた最初の重心を選ぶことをお勧めします。これはあなたのポイントが2Dであるため可能です。

シングルリンクまたは完全リンクアルゴリズムのような凝集型クラスタリング方法を探索することもできます。

しかし、これらのアルゴリズムは最適な結果を保証するものではないため、ある程度の準最適性に満足する必要があります。

これが役に立ちます。

関連する問題