1
最近、1つのマスタと2つのスレーブを持つAmazon EMRでSparkクラスタをセットアップしました。クラスタ全体でspark-submitでスパークジョブを実行する
pyspark
を実行し、でジョブを送信できます。
しかし、私は、スタンドアロンのジョブを作成するとき、job.py
のように、私はSparkContextを作成し、そのよう:
sc=SparkContext("local", "App Name")
これがないと思えるが、私はそこに置くことはよく分かりません。
私がジョブを提出するとき、私はそれがクラスタ全体を利用していないと確信しています。
私はクラスタ全体に対してジョブを実行したい場合は、スレーブごとに4つのプロセスを言って、どのような私は
にしています。)
Bに引数として渡す。)に引数として渡しますスクリプト自体にSparkContext()
があります。