-3

私はK平均クラスタリングアルゴリズムを試しています。 私は手作業で(よくプログラムで)定義された機能を使ってクラスターを作成しようとしている、私が手にしているムービーレビューのデータセットを持っています。 クラスタリングの前に使用するkの価値を事前に知ることは不可能であり、自分が望むクラスターの数は確信できません。私はクラスタを取得して、同じクラスタ内のエンティティの以前に観察されなかった類似性を手動で観察できると考えました。クラスタの品質を調べる方法は?

私の質問は、以下の通りである:

  1. 同じクラスタの要素が実際に関連されますか?

  2. クラスタリングの「品質」はすべてのクラスタで同じになるでしょうか?それをどのように確認するのですか?あなたの最初の質問について

答えて

0

我々のデータはラベルを持っていないので、それは、本当に良い質問仲間ではありません、私たちは、あなたがクラスタリングした後、我々は、クラスタ1,2を持って知っている(それを標識するのにクラスタリングアルゴリズムを使用します。.. 。または、B、Cまたは何これまで割り当てるラベル)

とあなたの2番目の質問:

あなたがあなたのクラスタリングを実行するどのように良いを見つけるために使用できるいくつかの対策があり、あなたのデータをクラスタリングした後、これを見てください

http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/ 

またはあなたの結果を簡単に分析する方法は、各クラスタのエントロピー尺度を計算することです。エントロピー尺度が低い方が良い結果が得られます(クラスタの数がデータポイントの数に等しい場合、それについて)

情報理論の観点からみると、エントロピー尺度は、あなたが見ているデータポイントにどのくらいの情報が格納されているかを表しています(同じデータでは、情報を運ぶことはできません。 DC <>信号は常に<(最低のエントロピー)>であり、これが私たちが得ることができる唯一のものですが、今この信号について考えてください< 01011110 ...>より多くの情報が得られるほど、より多くの情報を得ることができます<(より高いエントロピー)> ...)バックtクラスタリング後、各クラスタのデータポイントを似ているようにしたいので、各クラスタのデータポイントはエントロピー測定値が少ないほど類似しています。 幸運仲間!

関連する問題