我々のデータはラベルを持っていないので、それは、本当に良い質問仲間ではありません、私たちは、あなたがクラスタリングした後、我々は、クラスタ1,2を持って知っている(それを標識するのにクラスタリングアルゴリズムを使用します。.. 。または、B、Cまたは何これまで割り当てるラベル)
とあなたの2番目の質問:
あなたがあなたのクラスタリングを実行するどのように良いを見つけるために使用できるいくつかの対策があり、あなたのデータをクラスタリングした後、これを見てください
http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/
またはあなたの結果を簡単に分析する方法は、各クラスタのエントロピー尺度を計算することです。エントロピー尺度が低い方が良い結果が得られます(クラスタの数がデータポイントの数に等しい場合、それについて)
情報理論の観点からみると、エントロピー尺度は、あなたが見ているデータポイントにどのくらいの情報が格納されているかを表しています(同じデータでは、情報を運ぶことはできません。 DC <>信号は常に<(最低のエントロピー)>であり、これが私たちが得ることができる唯一のものですが、今この信号について考えてください< 01011110 ...>より多くの情報が得られるほど、より多くの情報を得ることができます<(より高いエントロピー)> ...)バックtクラスタリング後、各クラスタのデータポイントを似ているようにしたいので、各クラスタのデータポイントはエントロピー測定値が少ないほど類似しています。 幸運仲間!