2016-11-21 8 views
0

私はStandalone Spark Clusterを使っていくつかのファイルを処理しました。私がドライバを実行すると、そのコアを使って各作業者でデータが処理されました。SPARKパーティションとワーカーコアの違いは何ですか?

今、私はPartitionsについて読んだことがありますが、それがワーカーコアと異なる場合はそれを得られませんでした。

cores numberpartition numbersの設定に違いはありますか?

+1

[Spark Standaloneクラスタのワーカー、エグゼキュータ、コアとは何ですか?](http://stackoverflow.com/questions/32621990/what-are-workers-executors-cores-in-spark-standalone -クラスタ) – arglee

答えて

2

単純化したビュー:コアの数

あなたがアクションを呼び出すRDD、

  • A "仕事" 対パーティションは、それ用に作成されます。だから、ジョブはスパークするために提出された作品です。
  • ジョブはシャッフル境界に基づいて "STAGE"に分割されています!
  • 各ステージは、RDD上のパーティション数に基づいてさらにタスクに分割されます。だから、タスクはスパークの最小単位です。
  • ここでは、同時に実行できるタスクの数は「コア数」によって異なります。
2

パーティション(またはタスク)は作業単位を指します。 RDDとしてロードされ、128M(Sparkのデフォルト)でチャンクされた200Gのハープファイルがある場合、このRDDに〜2000個のパーティションがあります。コアの数は、一度に処理できるパーティションの数を決定し、このRDDを並列に実行できる最大2000(パーティション数/タスクの数で制限されます)を決定します。

関連する問題