私はK-meansクラスタリングアルゴリズムを一連のシーケンスファイルに対して実行しました。しかし、生成された結果は次のようになります。[]Mahout K-meansクラスタリングは私に0のような結果をクラスタ1.0に与えます:[]
:[]0が1.0をクラスタに属している:[]
0が1.0クラスタに属する:
0は、1.0クラスタに属しています
0 1.0クラスタに属する:[]
0が1.0をクラスタに属する:[]
0 clusteに属しr 1.0:[]
私が使っているプログラムは、Mahout-in-Actionの第9章にある例のNewsKMeansClustering.javaから借りています。
なぜこのような結果が得られるのか教えてください。これは、特定のパラメータ設定要件または何か他のもののためですか?
このプログラムにおけるコアクラスタリングコードは、私はMahoutの0.5を使用して、同じ問題に遭遇
CanopyDriver.run(vectorsFolder, canopyCentroids, new EuclideanDistanceMeasure(), 250, 120, false, false);
KMeansDriver.run(conf, vectorsFolder, new Path(canopyCentroids, "clusters-0"),
clusterOutput, new TanimotoDistanceMeasure(), 0.01, 20, true, false);