私はスパークアプリケーションを持っています。いくつかのテーブルに何度も参加し、その結果をHDFSに書き出します。ステージ内のすべてのタスクは同じエグゼキュータで実行されます
提出する私のスクリプト:
spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 14G \
--driver-cores 6 \
--executor-memory 14G \
--executor-cores 4 \
--num-executors 50 \
--conf spark.sql.autoBroadcastJoinThreshold=31457280 \
--conf spark.sql.shuffle.partitions=200 \
--class my.main.class\
my.jar
問題:スパークのWebUIで 、私が好き個々の段階は同じexectorで実行されている:段階で200のタスクが同じエグゼキュータのPCで実行するのはなぜ -xxxx269?
あなたはどのソースから読んでいますか? –
hdfsから読み取るすべてのテーブル – fifth
あなたはHDFSクラスタの上にSparkを実行していますか? –