1
Sparkタスクの数をコアの数より多くすることはできないので、コアの数よりも多くのパーティションを実行することは理にかなっていますか?もしそうなら、あなたは精巧にできますか?コアの数より多くのパーティションを実行することは理にかなっていますか?
Sparkタスクの数をコアの数より多くすることはできないので、コアの数よりも多くのパーティションを実行することは理にかなっていますか?もしそうなら、あなたは精巧にできますか?コアの数より多くのパーティションを実行することは理にかなっていますか?
パーティションの数を増やしたい場合もあります(サイズやメモリの制限など)。
並列処理のチューニングについては、この素晴らしい記事チェックアウト:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/
更新:これは処理/データスキューを支援し、あなたをより良いクラスタの利用と高速ジョブの実行を与えることができますどのように (例えば、スクリーンショットを下のSpark UIからタスク間のスキューを見ることができます - 差分メディアンと最大タスク時間を参照してください):
2つのタスクを同時に実行できるクラスタがあるとします。
ちょうど私がデータスキューについてのポイントを理解することを確認するために:私は他のパーティションよりも大きいデータセットでパーティションを持っている場合、小さなパーティションにそれを壊すために、より効率的です大規模なパーティションが1つのタスクで処理されるのを待つのではなく、他のExecutorとTasksが並列に処理できます。私はあなたを正しく理解しましたか? – Glide
はい。元の回答への更新を追加しました。 – Traian
このような詳細な回答をいただきありがとうございます。 – Glide