0
現在、spark 2.1.0を実行しています。私はPYSPARKシェルで大部分の作業をしましたが、pythonファイルをspark-submitする必要があります(javaのspark-submit jarに似ています)。あなたはどのようにそれをPythonで行いますか?spark 2.1.0でpythonファイルをspark-submitする方法は?
現在、spark 2.1.0を実行しています。私はPYSPARKシェルで大部分の作業をしましたが、pythonファイルをspark-submitする必要があります(javaのspark-submit jarに似ています)。あなたはどのようにそれをPythonで行いますか?spark 2.1.0でpythonファイルをspark-submitする方法は?
pythonfile.py
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("appName").getOrCreate()
sc = spark.sparkContext
rdd = sc.parallelize([1,2,3,4,5,6,7])
print(rdd.count())
は、あなたが望む構成で上記のプログラムを実行します。例えば:
YOUR_SPARK_HOME/bin/spark-submit --master yourSparkMaster --num-executors 20 \
--executor-memory 1G --executor-cores 2 --driver-memory 1G \
pythonfile.py
これらのオプションは必須ではありません。同じように実行することもできます
YOUR_SPARK_HOME/bin/spark-submit --master sparkMaster/local pythonfile.py