私はEC2
にr3.8xlarge (32 cores, 244G RAM)
を設定しました。私Spark
アプリケーションでスパーク:マスターローカル[*]がマスターローカルよりもかなり遅い
、私は各CSV約5万行を持って、DataBrickからSpark-CSV
を使用してS3
から2つのCSVファイルを読んでいます。私はunionAll
の2つのDataFramesであり、組み合わせたDataFrameでdropDuplicates
を実行しています。私が持っているとき
はしかし、
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
スパークは.setMaster("local")
よりも遅くなり、それはより速く32個のコアと思いませんか?