私はいくつかのトレーニング観察に基づいてk-meansモデルを作成する必要があるプロジェクトに取り組んでいます。私は380の観測値を持っています(700個の特徴を持っています)。私はSpark MlLibのK-meansアルゴリズムを使用しています。私が10以上のk(クラスタ数)を選んだとき、私のクラスタの中には1ポイントしか割り当てられませんでした(例えば、25で6ポイントが1ポイントになります)。最初に私はいくつかのポイントは他のポイントから大きく離れていると思っていましたが、問題は自分のクラスターに割り当てられているポイントが必ずしも同じではないということです。スパークK-means、独自のクラスタを持つポイント
これは予期された動作ですか?それがどれほど大きな問題なのか?