私はこのpostと同じ問題がありますが、そこにコメントを追加するには十分なポイントがありません。私のデータセットは100万行、100 colsです。私もMllib KMeansを使用していますが、それは非常に遅いです。仕事は決して終わらないので、私はそれを殺さなければならない。私はGoogleクラウド(dataproc)でこれを実行しています。それは私がより少ない数のクラスター(k = 1000)を求めても実行されますが、それでも35分以上かかります。私はk〜5000のためにそれを実行する必要があります。なぜそんなに遅いのか分かりません。データは適切にパーティション化されており、従業員数/ノード数は100万〜300,000の行列で約3分かかりますが、KMeansの場合はブラックホールに入ります。私は今、より少ない回数の反復(100の代わりに2つ)を試みていますが、どこかに何かが間違っていると感じています。Spark Mllib KMeansのアルゴリズムが極端に遅いのはなぜですか?
KMeansModel Cs = KMeans.train(datamatrix, k, 100);//100 iteration, changed to 2 now. # of clusters k=1000 or 5000
#iterationを2に変更すると、全く違いはありません。 – Kai
カイ、私は[同様の問題がある](http://stackoverflow.com/questions/39260820/is-sparks-kmeans-unable-to-handle-bigdata)。しかし、私の場合、仕事は単にハングする*だけではなく、それは遅いです。私の場合のように、あなたの仕事を走らせるときに進歩が見られ、それは遅くなるか、何もしませんか? – gsamaras