私はsparkとsparkRの新人です。私の質問は以下の通りです: 私は以下のコードを書きました: 1)。環境を設定し、spark.sessionを開始()sparkRを使用してデータを処理する場合、実際にプログラムが実行される場所はどこですか?
sparkR.session(master = "my/spark/master/on/one/server/standaloneMode", , sparkConfig = list(spark.driver.memory="4g",spark.sql.warehouse.dir = "my/hadoop_home/bin",sparkPackages = "com.databricks:spark-avro_2.11:3.0.1"))
は、それから私は書いた:ここ
rund <- data.frame(V1 = runif(10000000,100,10000),V2 =runif(10000000,100,10000))
df <- as.DataFrame(rund)
事です:
1)。プログラムはどこで「分裂」するのですか?私のローカルマシンやサーバー上で?
2)。また、プログラムがどこでコード "as.DataFrame()"を正確に実行したかは誰にでも分かりますか?スパークのstandalone_modeとして設定されていた私のコンピュータ上または私のサーバ上で。
ありがとうございます。 私は分散コンピューティングシステム分野についての相対的なbgを持っておらず、sparkとsparkRについては新しいので、私はこれらの数日間に苦しんでいました。 hhaa 時間があれば、別の質問をさせてもらえますか? http://stackoverflow.com/questions/39683374/sparkr-cannot-read-data-at-deployed-workers-but-ok-with-local-machine –
幸いにして、そしてStack Overflowへようこそ。この回答または他の誰かがあなたの問題を解決した場合は、それを合格とマークしてください。 – Aeck