私はクラスタ化したい大きなデータセットを持っています。私の試運転セットのサイズは2,500オブジェクトです。私はそれを '本物の契約'で実行すると、少なくとも20k個のオブジェクトを処理する必要があります。コサイン類似性によるクラスタリング
これらのオブジェクトは、それらの間にコサインの類似性を持っています。このコサイン類似度は、数学的距離メトリックであるという要件を満たしていない。三角不等式を満たさない。
私は期待していたクラスタの数をあらかじめ指定する必要なしに、類似のオブジェクトをまとめた「自然な」方法でクラスタリングしたいと考えています。
誰でもアルゴリズムを知っていますか?実際には、a)距離メトリックとb)あらかじめ指定された数のクラスタを必要としないアルゴリズムを探しています。
多くの感謝! (しかし、このソリューションは唯一のK平均クラスタリング提供しています) Clustering from the cosine similarity values 、そしてここに:
この質問は、ここで前に頼まれてい Effective clustering of a similarity matrix (しかし、この解決策はかなり曖昧だった)
From:http://en.wikipedia.org/wiki/Cosine_similarity "このコサイン距離には"コサイン類似度 "という用語が使用されていますが、角度のコサインが角度自体を計算するための便利なメカニズムであり、意味の一部でもありません。角度類似度係数の利点は、(1から減算することによって)差係数として使用された場合、結果として得られる関数が適切な距離メトリック*であることです。これは最初の意味では当てはまりません。 " – phs
残念ながら私私は自分自身で定義したコサインのような類似点を使用していますが、三角不等式を満たしていません。 – user1473883