AWSデータパイプラインでEMRアクティビティを使用しています。このEMRアクティビティは、EMRクラスタでハイブスクリプトを実行しています。ダイナモDBを入力とし、データをS3に保存します。
s3://my-s3-bucket/output/#{format(@scheduledStartTime,"YYYY-MM-dd")}
は、これは一つのフォルダおよびS3内の1つのファイルを作成します。
これは
out.direcoryPathであるEMR活性
s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hive-script,--run-hive-script,--hive-versions,latest,--args,-f,s3://my-s3-bucket/hive/my_hive_script.q,-d,DYNAMODB_INPUT_TABLE1=MyTable,-d,S3_OUTPUT_BUCKET=#{output.directoryPath}
で使用されるEMRの工程です。 (技術的に言えば、それは二つの鍵2017-03-18/<some_random_number>
と2017-03-18_$folder$
を作成します)
2017-03-18
2017-03-18_$folder$
これらの余分な空_$folder$
ファイルの作成を回避する方法。
EDIT: https://issues.apache.org/jira/browse/HADOOP-10400にリストされている解決策が見つかりましたが、AWSデータパイプラインで実装する方法がわかりません。
https://issues.apache.org/jira/browse/HADOOP-10400にリストされているソリューションが見つかりましたが、AWSデータで実装する方法はわかりませんパイプライン。 –
@saurabhagarwal私は、あなたがEMRで管理することはできないと信じています。 –