私がAWS EMR 2.4からAWS EMR 5.0にPythonで記述したいくつかのMRジョブを移行しようとしています。これまではboto 2.4を使用していましたが、EMR 5.0はサポートされていないため、boto3に移行しようとしています。以前は、boto 2.4を使用していましたが、私はStreamingStep
モジュールを使用して、入力場所と出力場所、およびマッパーとレデューサーのソースファイルの場所を指定しました。このモジュールを使用して、ジョブを実行するためにjarファイルを作成またはアップロードする必要はありませんでした。しかし、私はboto3のドキュメンテーションのどこにでも、このモジュールの等価物を見つけることができません。 boto3のストリーミングステップをMRジョブに追加すると、jarファイルをアップロードして実行する必要はありません。AWS EMR 5.0で動作するboto3のMRジョブにストリーミング・ステップを追加
7
A
答えて
5
boto3とEMR APIの記述が不十分で残念です。最低限、次のように例を数える言葉がなります
import boto3
emr = boto3.client('emr')
resp = emr.run_job_flow(
Name='myjob',
ReleaseLabel='emr-5.0.0',
Instances={
'InstanceGroups': [
{'Name': 'master',
'InstanceRole': 'MASTER',
'InstanceType': 'c1.medium',
'InstanceCount': 1,
'Configurations': [
{'Classification': 'yarn-site',
'Properties': {'yarn.nodemanager.vmem-check-enabled': 'false'}}]},
{'Name': 'core',
'InstanceRole': 'CORE',
'InstanceType': 'c1.medium',
'InstanceCount': 1,
'Configurations': [
{'Classification': 'yarn-site',
'Properties': {'yarn.nodemanager.vmem-check-enabled': 'false'}}]},
]},
Steps=[
{'Name': 'My word count example',
'HadoopJarStep': {
'Jar': 'command-runner.jar',
'Args': [
'hadoop-streaming',
'-files', 's3://mybucket/wordSplitter.py#wordSplitter.py',
'-mapper', 'python2.7 wordSplitter.py',
'-input', 's3://mybucket/input/',
'-output', 's3://mybucket/output/',
'-reducer', 'aggregate']}
}
],
JobFlowRole='EMR_EC2_DefaultRole',
ServiceRole='EMR_DefaultRole',
)
を私はのbotoでこれを行うために必要が覚えていないが、私はvmem-check-enabled
を無効にすることなく、適切に、単純なストリーミングジョブを実行している問題がありました。
また、スクリプトがS3のどこかにある場合は、-files
を使用してダウンロードしてください(#filename
を引数に追加すると、ダウンロードしたファイルはクラスタ内でfilename
として利用可能になります)。
関連する問題
- 1. Boto3を使用してAWS EMRクラスターでステップ補完を待つ方法
- 2. スパーク・ジョブ送信:AWS EMRステップまたはコマンドライン・スパーク・サブミット
- 3. すでに実行中のemrにaws pigステップを注入するboto3 pythonの例をお探しですか?
- 4. 手動でAWS EMRステップを失敗させる方法
- 5. EMRジョブ内でAWS Java SDKを使用
- 6. PowerShell Cmdletを使用したAWS EMRジョブ
- 7. AWS EMRカスタムjarアプリケーションで追加のjarを指定する
- 8. awarkで起動するPythonパッケージを追加するEMR
- 9. EMRジョブを実行するための最小AWSポリシー要件
- 10. クラウドフォーメーションテンプレートのEMRクラスターにKeyNameを追加
- 11. jqueryの追加ステップをステップ形式で作成する
- 12. AWS EMRステップ終了時にメッセージを表示
- 13. emrクラスタにcloudwatchイベントを追加する
- 14. MVCミニプロファイラ - 手動で追加するステップ
- 15. boto3のEMRクライアントrun_job_flowはInstanceProfileは、私はこのようなEMRクラスタを起動するためにboto3使用しようとしています
- 16. AWS EMRスパークステップargsバグ
- 17. AWS EMR-Yarn Container
- 18. AWS Elastic BeanstalkジョブのクラスパスにJDBC jarドライバを追加する
- 19. AWS EMR EMRを使用してjupyterパスワード
- 20. AWS SDK Boto3:boto3.exceptions.unknownapiversionerror
- 21. エラー、アマゾンAWS EMR
- 22. AWS EMR Spark- Cloudwatch
- 23. AWS EMRのPresto Sandboxクラスタ - コネクタ(カタログ/ .properties)の追加
- 24. AWS EMRを作成できません。
- 25. ラムダ関数にトリガs3バケットを動的に追加する方法(python boto3 API)
- 26. クラスタ上のAWS EMRファイル作成が動作しない
- 27. AWS EMRのSentry
- 28. Flink REST APIを使用してAWS EMR上でFlinkジョブを実行する
- 29. AWS EMR - Apache Flink Webクライアント
- 30. Googleアプリでcronジョブの動的追加
ありがとうございました。出来た。残念なことに私がこれに対して設定した賞金は、あなたがそれに答える数時間前に終了しました。しかし、とにかくトンに感謝します。 :) –