私はSparkを初めて使用しています。私は、Sparkの設定とさまざまなプロパティについて読んで、ジョブを最適化できるようにしました。しかし、どうすればいいのか分かりません。Spark/Yarnジョブをより速くするための設定方法は?
例えば、私は大(1Masterと10人の奴隷を)r3.8xタイプのクラスタを作成したが
私が設定するにはどうすればよい:
spark.executor.memory
spark.driver.memory
spark.sql.shuffle.partitions
spark.default.parallelism
spark.driver.cores
spark.executor.cores
spark.memory.fraction
spark.executor.instances
または私はちょうど、デフォルトのままにすべきか?デフォルトを残すと私の仕事は非常に遅くなります。私の仕事は3つのグループの基本と3つの放送されたマップを持っています。あなたのクラスタは、あなたが持っているアプリケーションで使用されているどのくらいの資源利用の下にあるかどうかあなたがあなたのアプリケーションを監視する必要があるいくつかのこと
1)を知っておく必要がありますアプリケーションをチューニングするための
おかげ