awsデータパイプラインとEMRでデルタファイルのみを処理する方法

AWSデータパイプラインとEMRを使用して新しいファイルのみを処理する方法は？私は私のソースディレクトリに異なる数のファイルを取得するかもしれません。 AWSデータパイプラインとEMRを別のファイルの後に1つのファイルとして使用してそれらを処理したいと思います。私はどのように事前条件 "存在"または "シェルコマンド活動"がこの問題を解決できるか分からない。 EMRステップを追加するか、ファイルごとにEMRクラスターを作成して、ファイルのデルタ・リストを処理する方法を提案してください。awsデータパイプラインとEMRでデルタファイルのみを処理する方法

出典

2016-10-23 user3702893

これは通常、データパイプラインで行われる方法は、ソースディレクトリを参照するときにスケジュール式を使用することです。例えば、

あなたpipeineが毎時間実行するようにスケジュールし、指定された場合に "S3：//バケット/＃{形式（minusMinutes（@ scheduledStartTime、60）、 'YYYY-MM-DD HH'）を}"

を入力ディレクトリとして使用すると、datapipelineは、時間が17時に実行されているときに、それを「s3：// bucket/2016-10-23-16」に解決します。したがって、ジョブは時間16に対応するデータのみを読み取ります。あなたの入力はこのようにデータを生成するために使用することができます。式の例については、http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.htmlを参照してください。

残念ながら、「最後に処理されてからデータを取得する」という組み込みサポートはありません。

出典

2016-10-24 21:28:31

awsデータパイプラインとEMRでデルタファイルのみを処理する方法

答えて

関連する問題