0
私はSparkにとって非常に新しく、私が開発したコードは期待通りの速さで動作しません。私は今、私は私の質問は3倍で、これはacheivingされる並列度をチェックすることを決めたとSparkで並列化
sc.defaultParallelism
>>> 1
を使用初期化は、環境
spark_path = "C:\spark"
os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path
sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")
from pyspark import SparkContext
from pyspark import SparkConf
sc = SparkContext("local", "test")
スパーク次のように
をスパークコンテキストを開始しています
- 私は並列性がないのですか?
- どうすればいいですか?
- 私は言われた私の仕事のために私は具体的な設定をする必要があります。設定は
--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128
です。私はこの
と30ギガバイトのRAMの設定に取り掛かることができますどのようにコンテキストを作成
可能な重複-submit: "--master local \ [n \]"と "--master local --executor-cores m"]の違い(http://stackoverflow.com/questions/39939076/spark-submit-difference-between) -master-localn-and-master-local-exec) – zero323