2017-10-03 12 views
0

私は5GBのデータとダンプをmongoDBに取り込むテストジョブを実行しています。 私は1つのマスターと3つのスレーブそれぞれ16のCPU、30GBのRAMを持っています。ジョブの提出後、スパークのように思えるのは2つのスレーブノードをジョブに使用し、ジョブに32のコアを割り当てますが、私は自分のジョブに動的割り当てを使用していますが、このジョブはこのクラスターで唯一実行しています3つのノードに使用されるコア(アプリケーションマスターヤーンのために1つ残っています)。私のクラスターにAWS EMRとヤーンを使用しています。クラスタ内の少数のノードを使用するスパークジョブ

動的割り当てを使用してジョブに2ノードしか参加できず、ジョブに32コアしか割り当てられない特定の理由があります。

enter image description here

答えて

0

zipファイルは分割できません。ファイルを手動で解凍しないと、1台のマシンにしかロードできません。

タスクの合計数(200)は、SQL集計を使用していることを示しています。これは、最初のデータが実際に再分割され、構成に応じてSparkが局所性が高く、占有ノード数が少ない方が望ましい場合があります。

ファイルをSparkの入力として使用する前に、ファイルを展開することを強くお勧めします。

+0

私は別の8コア3ノード設定を持っています。同じジョブが同じ入力でダイナミックアロケーションで23コアを使用するので、48コアクラスタが使用可能なすべてのリソースを使用しない理由がわかりません – baiduXiu

関連する問題