私はEMRクラスタをスピンアップしています。指定したバケットを作成しました。in the EMR docsですが、データをアップロードして読み込む方法はありますか?私のスパーク送信ステップでは、s3://myclusterbucket/scripts/script.py
を使ってスクリプト名を言うと、出力は自動的にs3にアップロードされませんか?依存関係はどのように処理されますか?私はs3バケット内の依存性ジップを指し示すpyfilesを使用しようとしましたが、 'ファイルが見つかりません'というメッセージが戻ってきますEMRは入出力用のs3バケットをどのように扱いますか?
0
A
答えて
0
EMRのMapReduceまたはTezジョブは、EMRFSのためにS3に直接アクセスできます(AWS独自のHadoopファイルシステムS3に基づいて)、例えばApache Pigで行うことができます loaded_data = LOAD 's3://mybucket/myfile.txt' USING PigStorage();
PythonベースのSparkジョブについてはわかりません。しかし、1つの解決策は、最初にオブジェクトをS3からEMR HDFSにコピーしてそこで処理することです。
使用例EMR HDFS(およびその逆)にS3からオブジェクトをコピーするためのコマンド
hadoop fs
、使用
hadoop fs -cp s3://mybucket/myobject hdfs://mypath_on_emr_hdfs
S3-distの:コピーを行うための複数の方法があります。 -cp EMR HDFSにS3からオブジェクト(およびその逆)をコピーするhttp://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html
またawscli使用することができる(または)を使用してS3からEMRマスターインスタンスのローカルディスクにオブジェクトをコピーします(逆も同様)。たとえば、aws s3 cp s3://mybucket/myobject .
関連する問題
- 1. S3へのEMR出力
- 2. はS3バケットに出力
- 3. s3バケットのディープコピーをどのように実行しますか?
- 4. サードパーティの入出力ストリームをどのように扱うべきですか?
- 5. Amazon EMR/S3の出力を確認する方法は?
- 6. AWS-S3バケット用のmulter-S3でアップロードディレクトリを指定するにはどうすればよいですか?
- 7. S3に書き込まれたEMRハイブ出力オブジェクトのカスタムACL
- 8. S3に中間のEMRタスク出力を書き込む
- 9. ストレージとしてEMRFS(s3バケット)を使用してEMR 5.3.0を作成します。
- 10. S3バケット内のファイルのバージョンをどのように参照できますか?
- 11. がどのようにアマゾンSESあなたのAmazon S3のバケット
- 12. AWS CLIを使用してリモートファイルをS3バケットに転送するにはどうすればよいですか?
- 13. visualsearch.jsの出力はどのように使用しますか?
- 14. pandas.ewm.covの出力はどのように使用しますか?
- 15. スカラアプリケーションを使用してs3バケットにアクセスしようとしています
- 16. 入力ファイルから数値を抽出し、必要な出力にどのように使用しますか?
- 17. GOlangのAWS SDKを使用してS3バケットを空にするにはどうすればいいですか?
- 18. S3からAmazon EMR HDFSにファイルをコピーするにはどうすればよいですか?
- 19. AWS CLI S3 - 私のようなパスでS3バケットを持って
- 20. 入力の検証はどのように行いますか?
- 21. ルート53購入ドメインをs3バケットにリダイレクトしますか?
- 22. Amazon S3バケットをバックアップまたは同期するにはどうすればよいですか?
- 23. S3バケット内のすべてのアイテムのメタデータを読み取るにはどうすればよいですか?
- 24. Facebookはテキストのオーバーフローをどのように扱いますか?
- 25. ElasticSearchでどのようにデータの範囲をバケットに入れますか?
- 26. Amazon S3バケットのオブジェクトのダウンロードリンクを作成するにはどうすればよいですか?
- 27. は、私はこれらの指示に従って別のバケットにS3からバケットコンテンツをコピーしようとしてきまし新しい宛先S3バケット
- 28. 偽ターゲット入力と出力をどのように指定しますか?
- 29. TeamCityの成果物フォルダをAWS S3バケットにアップロードするにはどうすればよいですか?
- 30. Amazon S3で複数のドメインを同じバケットにマップするにはどうすればよいですか?
あなたの質問は非常に一般的です。データを読み取る最善の方法は、データの大きさとデータで何をしたいのかによって異なります。また、それはどのような形式です。 S3からデータを移動する最も一般的な方法は、awsコマンドラインツール(https://aws.amazon.com/cli/)です。これで 'aws s3 cp myfile.txt s3:// mybucket/myfile.txt'のようなものでデータをコピーすることができます。出力に関しては、スクリプトがどこに書き込むかによって異なります。 –