私はK-Meansと共にCanopyクラスタリングアルゴリズムを実装しようとしています。私はCanopyクラスタリングを使用してK-meansにフィードするための最初の開始点を得ると言っているオンライン検索を行っていますが、Canopyクラスタリングでは、天蓋に2つのしきい値T1とT2を指定する必要があります。内側の閾値の点はそのキャノピーに強く結びついており、より広い閾値の点はそのキャノピーに結びついていません。これらの閾値、またはキャノピー中心からの距離はどのようにして決定されますか?Canopy ClusteringのT1およびT2しきい値の選択方法は?
問題のコンテキスト:
私が解決しようとしている問題は、私は重複した要素があって、約50のセットのサイズで、このような[1,30]または[1250]のように数値のセットを持っている、ですそれらは8,17.5,17.5,23,66などの浮動小数点数でもかまいません。私は、最適なクラスター、または一連の数値のサブセットを探したいと思います。
K-meansを使用したCanopyクラスタリングが良い選択である場合、私の質問は依然として立っています.T1、T2の値はどうやって見つかりますか?これは良い選択ではない場合は、より良い、よりシンプルだが効果的なアルゴリズムを使用することですか?
次のような別の質問があります。http://stats.stackexchange.com/questions/13895/how-do-i-algorithmically-determine-values-of-t1-t2-for-canopy-clustering – cyraxjoe
これで運がいい?私は、Can-Cansにフィードする初期クラスタセットを見つけるためにCanopy Clusteringを使うことを考えています。私はちょうど[ここ](http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set)(彼の答えでは@rpdの方法に似て聞こえる)で説明されているように "Jump Method"を使うかもしれませんが、 T1とT2を判断するには良い方法ですが、代わりにCanopy Clusteringを使用したいと思います。 – JesseBuesking