2017-05-14 10 views
0

私はいくつかのトレーニング観察に基づいてk-meansモデルを作成する必要があるプロジェクトに取り組んでいます。私は380の観測値を持っています(700個の特徴を持っています)。私はSpark MlLibのK-meansアルゴリズムを使用しています。私が10以上のk(クラスタ数)を選んだとき、私のクラスタの中には1ポイントしか割り当てられませんでした(例えば、25で6ポイントが1ポイントになります)。最初に私はいくつかのポイントは他のポイントから大きく離れていると思っていましたが、問題は自分のクラスターに割り当てられているポイントが必ずしも同じではないということです。スパークK-means、独自のクラスタを持つポイント

これは予期された動作ですか?それがどれほど大きな問題なのか?

答えて

0

これは、k平均のための典型的なものです。

特に、データポイントより多くの機能があり、不連続なフィーチャがある場合。これは一種のオーバーフィットです。高い次元性のため、多くの点はある意味では「ユニーク」です。

k-meansにはランダムが含まれるため、毎回同じ結果が得られません。

より高度なアルゴリズムを調べるにはk-meansは本当に古く、限られています。 Sparkは、あなたには最適なツールではないかもしれません。なぜなら、提供するアルゴリズムは非常に少ないからです。

関連する問題