2016-05-14 17 views
2

私はラムダに移動することを検討しています。ユーザーエクスペリエンスを使用してドキュメントやさまざまなブログを読んでいるうちに、私はまだ簡単な質問に苦しんでいます。既存のs3ファイルでlambdaを使う提案/適切な方法はありますか?aws lambda s3イベントの既存ファイル

私は数年にわたるアーカイブされたデータを含むs3バケットを持っています。これらのデータのサイズはかなり大きい(数百GB)。各ファイルは単純なtxtファイルです。ファイル内の各行はイベントを表し、コンマで区切られた文字列です。

私のendgameは、これらのファイルを消費し、それぞれのファイルを1行ずつ解析し、いくつかの変換を適用し、行のバッチを作成し、それらを外部サービスに送信することです。私がこれまでに読んだことから、適切なラムダを書くと、これはs3イベント(たとえば、新しいファイルのアップロード)によってトリガされます。

バケットの既存のすべてのコンテンツにラムダを適用する方法はありますか?すべてのあなたのリソースのリストを取得し、何とかラムダ関数に各項目を送信するスクリプトを記述する必要があり、既存のリソースについては

おかげ

答えて

1

。私はおそらくKenesisのストリームにあなたの既存のS3オブジェクトのそれぞれの場所を送信し、ラムダ関数を設定してそのストリームからレコードを取り出し、それらを処理することに目を向けるでしょう。

0

バケットのコンテンツをコピーして、ラムダで作成イベントをキャッチしてください。

コピー:より大きなバケットの

s3cmd sync s3://from/this/bucket/ s3://to/this/bucket 

:このアプローチは、「今」にオブジェクト上のすべての日付をリセットし、新しいオブジェクトを作成するための費用がかかりますことを

https://github.com/paultuckey/s3_bucket_to_bucket_copy_py

+1

注意オブジェクトを同じバケット内の同じキーにコピーしても、技術的には新しいオブジェクトが作成されるためです。 –

関連する問題