2013-01-17 28 views
5

私はいくつかのデータをクラスタ化するのに必要なクラスタの数が正しいか評価しようとしています。最適なクラスタ数とDavies-Bouldinインデックスの決定

これは、Davies-Bouldin Index(DBI)を使用してこれが可能であることを知っています。

DBIを使用するには、任意の数のクラスタに対して計算する必要があり、DBIを最小限にする必要があるのは、必要なクラスタの数に相当します。

質問です:

2つのクラスターはDBIを使用して1つのクラスタよりも優れているかどうかを知るためにどのように?では、クラスタが1つだけの場合、どのようにDBIを計算できますか?

答えて

5

すべてのクラスタの平均DBIのみを考えてみるのは良い考えではありません。

確かに、クラスタの数を増やすとペナルティなしに、得られるクラスタリングのDBI量は極端にゼロのDBIになります(各データポイントはそれぞれのデータポイントそれ自身の重心と重複する)。

DBIを使用して2つのクラスタが1つのクラスタより優れているかどうかを知るには?では、クラスタが1つだけの場合、どのようにDBIを計算できますか?

パフォーマンスメトリックとして平均値 DBIを使用すると、どちらが良いかは分かりません。

実用的な方法は、Elbow methodを使用することです。

別の方法では、クラスタの数の関数として説明された分散の割合を調べます。クラスタの数を選択して、別のクラスタを追加するとデータのモデリングが向上しないようにする必要があります。より正確には、クラスタの数に対してクラスタによって説明される分散のパーセンテージをグラフ化すると、最初のクラスタは多くの情報を追加しますが(分散が大きく説明されます)、ある時点で限界利益が低下し、グラフ。クラスタの数はこの時点で選択され、したがって「エルボー基準」が選択されます。

enter image description here

クラスターの最適な数を選択すると、それぞれの持ついくつかの他の良い選択肢:

関連する問題