2017-08-13 3 views

答えて

1

EMRステップは、どのようにスパークジャーを提出したいかを記述する場所です。

新しいデータパイプラインを作成するときは、[テンプレートを使用してビルド]オプションを選択し、[弾性MapReduceクラスタでジョブを実行]を選択できます。

EmrActivityでは、送信するステップを説明する必要があります(必要に応じて複数のステップを実行することもできます)。

あなたはこのステップを理解するためにAWS EMR Spark Step Guideを読むことができます。要するに、火花の仕事を提出する方法を記述する場所。

いくつかのあいまいな理由のために、データパイプラインでは、スペースをステップの '、'に置き換える必要があります。ここで私はdatapipelineに走ったスパークステップの一例である:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments> 

それらを使用する場所あなたが理解できるように、私は私の設定の一部を残して、あなたは切り替えることができるように、私は<「テキスト」>とのいくつかを置き換えますあなた自身の情報で

+0

ありがとう!それは私たちのデータパイプラインのための執筆ステップを助けました。私たちは実際にいくつかの問題を抱えていましたが、私たちのEMRスパークのインスタンスは私たちの仕事に適合しませんでした。それはしばらくかかりましたが、私たちはそれを理解することができました。 –

関連する問題