2017-02-16 3 views
5

私の理解は正しいですか?sparkのアプリケーション、ジョブ、ステージ、タスクのコンセプトは何ですか?

  1. アプリケーション: spark submit。

  2. job: 遅延評価が行われると、ジョブが発生します。

  3. ステージ: シャッフルと変換タイプに関係します。 ステージの境界を理解することは難しいです。

  4. タスク: 単位操作です。タスクごとに1つの変換。変換ごとに1つのタスク。

この理解を向上させたいと考えています。

答えて

9

主な機能はアプリケーションです。

RDDでアクションを呼び出すと、「ジョブ」が作成されます。ジョブはSparkに提出された仕事です。

ジョブは、シャッフル境界に基づいて「段階」に分割されます。 Thisを理解するのに役立ちます。

各ステージは、RDDのパーティション数に基づいてさらにタスクに分割されます。そのため、タスクはSparkにとって最小の作業単位です。

関連する問題