私は分散コンピューティングが初めてで、Sparkのmllib kmeansを使用してEC2でKmeansを実行しようとしています。私は、チュートリアルを読んでいたとして、私は、私は、このコードは、クラスタ内で実行されます方法を理解するトラブルを抱えています http://spark.apache.org/docs/latest/mllib-clustering.html#k-means mllibコードはsparkでどのように動作しますか?
に次のコードスニペットを見つけました。具体的には、私は次のことを理解し、トラブルを抱えている:
ノードをマスターするためのコードを提出した後、どのようにスパークは、ジョブを並列化する方法を知っていますか?これを扱うコードの部分がないように見えるからです。
コードはすべてのノードにコピーされ、各ノードで実行されますか?マスターノードは計算を行いますか?
ノードはどのように各繰り返しの部分的な結果を共有しますか?これはkmeans.trainコードの中で処理されていますか、またはスパークコアが自動的に処理しますか?
申し訳ありませんが、私はいずれの点でも不正確です。誰かが何かエラーを見たら、私に電話してください - 私はできるだけ簡単に説明しようとしました。おそらくあまりにも不正確かもしれません。 –