2017-05-01 15 views
0

私はSparkにとって非常に新しく、私が開発したコードは期待通りの速さで動作しません。私は今、私は私の質問は3倍で、これはacheivingされる並列度をチェックすることを決めたとSparkで並列化

sc.defaultParallelism 
>>> 1 

を使用初期化は、環境

spark_path = "C:\spark" 
os.environ['SPARK_HOME'] = spark_path 
os.environ['HADOOP_HOME'] = spark_path 

sys.path.append(spark_path + "/bin") 
sys.path.append(spark_path + "/python") 
sys.path.append(spark_path + "/python/pyspark/") 
sys.path.append(spark_path + "/python/lib") 
sys.path.append(spark_path + "/python/lib/pyspark.zip") 
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip") 

from pyspark import SparkContext 
from pyspark import SparkConf 

sc = SparkContext("local", "test") 

スパーク次のように

をスパークコンテキストを開始しています

  1. 私は並列性がないのですか?
  2. どうすればいいですか?
  3. 私は言われた私の仕事のために私は具体的な設定をする必要があります。設定は--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128です。私はこの
私は4つのコアを搭載したWindowsサーバーに取り組んでいます

と30ギガバイトのRAMの設定に取り掛かることができますどのようにコンテキストを作成

+0

可能な重複-submit: "--master local \ [n \]"と "--master local --executor-cores m"]の違い(http://stackoverflow.com/questions/39939076/spark-submit-difference-between) -master-localn-and-master-local-exec) – zero323

答えて

0

、すべての利用可能なコアを利用するsc = SparkContext("local[*]", "test")を試してみてください[スパークの

関連する問題