2016-03-22 11 views
-1

runパラメータは、最適クラスタを得るためにKMeansが繰り返される回数であり、maxIterationsは各runの反復回数であると理解していますが、それは正しいですか? 5000データポイントの場合、それらのための最良の値は何ですか?MLIib KMeansでのmaxIterationsとrunの違いは?

答えて

1

あなたの質問をお見逃ししたように私の答えを編集しました。

私は実行を理解したよう関数kmeansは、最適なクラスタとmaxIterationsを得るために繰り返される回数は、各実行で反復の数を意味し、それははい、それは正しいです

正しいとされます。通常、k-meansは一度だけ実行します。反復の最大回数は、k-means重心更新ループが発生するのを許す反復の最大回数です。

スパークの実装は、で記述されているものを、で実行します。あなたはどのくらい回したいのですかアルゴリズムを実行します。通常は必要ありません。特に、k平均メトリックを最適化しても、実際の目標が最適化されているわけではありません。

5000データポイントの場合、どのような値が最適ですか?

この種の質問はしないでください。これらのことは常に問題とデータに依存します。使用しているツール、それらが意味するもの、それらを反復する方法をよりよく理解するように作業する必要があります。これは、あなたがその種の質問をするような状況に身を置かないようにするか、またはそれが正当であるかどうか、他のコンテキストが必要であるかどうか(ちょうど意味のある議論のための十分なコンテキストではない)

関連する問題