0

AWSデータパイプラインとEMRを使用して新しいファイルのみを処理する方法は?私は私のソースディレクトリに異なる数のファイルを取得するかもしれません。 AWSデータパイプラインとEMRを別のファイルの後に1つのファイルとして使用してそれらを処理したいと思います。私はどのように事前条件 "存在"または "シェルコマンド活動"がこの問題を解決できるか分からない。 EMRステップを追加するか、ファイルごとにEMRクラスターを作成して、ファイルのデルタ・リストを処理する方法を提案してください。awsデータパイプラインとEMRでデルタファイルのみを処理する方法

答えて

0

これは通常、データパイプラインで行われる方法は、ソースディレクトリを参照するときにスケジュール式を使用することです。例えば、

あなたpipeineが毎時間実行するようにスケジュールし、指定された場合に "S3://バケット/#{形式(minusMinutes(@ scheduledStartTime、60)、 'YYYY-MM-DD HH')を}"

を入力ディレクトリとして使用すると、datapipelineは、時間が17時に実行されているときに、それを「s3:// bucket/2016-10-23-16」に解決します。したがって、ジョブは時間16に対応するデータのみを読み取ります。あなたの入力はこのようにデータを生成するために使用することができます。式の例については、http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.htmlを参照してください。

残念ながら、「最後に処理されてからデータを取得する」という組み込みサポートはありません。

関連する問題