スパークジョブのデータパイプラインを使用したEMRアクティビティ

データパイプラインでスパークジョブ用のJarファイルを実行しようとしていますが、EMRステップで正確に何を渡す必要があるのかよくわかりません。スパークジョブのデータパイプラインを使用したEMRアクティビティ

2017-08-13 Monika Patel

EMRステップは、どのようにスパークジャーを提出したいかを記述する場所です。

新しいデータパイプラインを作成するときは、[テンプレートを使用してビルド]オプションを選択し、[弾性MapReduceクラスタでジョブを実行]を選択できます。

EmrActivityでは、送信するステップを説明する必要があります（必要に応じて複数のステップを実行することもできます）。

あなたはこのステップを理解するためにAWS EMR Spark Step Guideを読むことができます。要するに、火花の仕事を提出する方法を記述する場所。

いくつかのあいまいな理由のために、データパイプラインでは、スペースをステップの '、'に置き換える必要があります。ここで私はdatapipelineに走ったスパークステップの一例である：

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

それらを使用する場所あなたが理解できるように、私は私の設定の一部を残して、あなたは切り替えることができるように、私は<「テキスト」>とのいくつかを置き換えますあなた自身の情報で

出典

2017-08-14 06:58:46

ありがとう！それは私たちのデータパイプラインのための執筆ステップを助けました。私たちは実際にいくつかの問題を抱えていましたが、私たちのEMRスパークのインスタンスは私たちの仕事に適合しませんでした。それはしばらくかかりましたが、私たちはそれを理解することができました。 –

スパークジョブのデータパイプラインを使用したEMRアクティビティ

答えて

関連する問題