AWSデータパイプラインとEMRを使用して新しいファイルのみを処理する方法は?私は私のソースディレクトリに異なる数のファイルを取得するかもしれません。 AWSデータパイプラインとEMRを別のファイルの後に1つのファイルとして使用してそれらを処理したいと思います。私はどのように事前条件 "存在"または "シェルコマンド活動"がこの問題を解決できるか分からない。 EMRステップを追加するか、ファイルごとにEMRクラスターを作成して、ファイルのデルタ・リストを処理する方法を提案してください。awsデータパイプラインとEMRでデルタファイルのみを処理する方法
0
A
答えて
0
これは通常、データパイプラインで行われる方法は、ソースディレクトリを参照するときにスケジュール式を使用することです。例えば、
あなたpipeineが毎時間実行するようにスケジュールし、指定された場合に "S3://バケット/#{形式(minusMinutes(@ scheduledStartTime、60)、 'YYYY-MM-DD HH')を}"
を入力ディレクトリとして使用すると、datapipelineは、時間が17時に実行されているときに、それを「s3:// bucket/2016-10-23-16」に解決します。したがって、ジョブは時間16に対応するデータのみを読み取ります。あなたの入力はこのようにデータを生成するために使用することができます。式の例については、http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.htmlを参照してください。
残念ながら、「最後に処理されてからデータを取得する」という組み込みサポートはありません。
関連する問題
- 1. AWSデータパイプラインemrアクティビティステップセクションでカンマをエスケープする
- 2. AWSデータパイプラインとEMRによるDynamoDBバックアップ
- 3. AWSデータパイプラインでEMRクラスターを起動する方法パイプラインフローでのアクティビティの完了後のみ
- 4. AWSデータパイプラインを使用してAWS EMRクラスターで複数の並列スパークジョブを実行する方法
- 5. AWSデータパイプラインを再起動する方法
- 6. AWSデータパイプライン - EMR作成時のHiveサイト値の設定
- 7. EMRアクティビティでデータパイプラインが失敗する
- 8. AWSデータパイプラインのShellCommandActivity
- 9. スパークジョブのデータパイプラインを使用したEMRアクティビティ
- 10. AWS EMRクラスタのタスクノードのスポット終了の処理
- 11. 長時間実行しているEMRクラスタのAWSデータパイプラインの設定
- 12. awsデータパイプラインでemrアクティビティが失敗した場合にシェルコマンドを実行
- 13. AWSデータパイプラインで列マッピングを指定する方法は?
- 14. awsデータパイプラインでサブツリーを実行する方法
- 15. Redshift COPYコマンドとAWSデータパイプラインRedshiftCopyActivity
- 16. AWSデータパイプライン間の依存関係を管理する
- 17. serverless.ymlを使用してAWSデータパイプラインを設定する方法は?
- 18. AWS EMRのサイズ変更方法
- 19. AWS EMRからのデータベースクレデンシャルの管理Intsance
- 20. AWS DynamoDBで空のJava文字列を処理する方法
- 21. awsベースのサーバーレススタックでユーザーデータを処理する方法
- 22. AWS EMRでPYTHONHASHSEEDを設定する方法
- 23. RDSインスタンス間のAWSデータパイプライン(MySQL)
- 24. AWSデータパイプラインの使用PigActivity
- 25. ShellCommandActivity(AWSデータパイプライン)でデータパイプラインを使用してSQL Serverでストアドプロシージャを呼び出す方法
- 26. AWS EMRのSentry
- 27. AWS API Gatewayでレスポンスを処理する方法iOS
- 28. awsでdjango long taskを処理する方法
- 29. AWS EMRの長期スパークストリーミングステップを停止する方法
- 30. 手動でAWS EMRステップを失敗させる方法