2017-11-12 26 views
0

私は現在S3内にデータレイクを構築しており、DMSを使用してmysql DBからS3にデータを正常に移動しました。 DMS内では、「既存のデータを移行し、継続中の変更を複製する」というオプションを選択しました。私はcsvにデータを変換しましたが、将来はおそらく寄木細工を選択するでしょう。このメソッドは、データベーステーブルのすべての生データを持つ初期csvファイルを作成します。その後、挿入、削除、更新を伴う後続のcsvファイルを作成します。Amazon S3からRedshiftへのETLデータ

私はS3からRedshiftにデータをコピーする戦略を探しています。私は一括データをコピーし、S3からRedshiftへの継続的な変更をコピーする戦略を探しています。おそらくこのデータの多くを集約して要約する必要があります。私は、Pythonを使用するAWS Glueを使用することをお勧めします。このETLプロセスでは、S3のcsvファイルから読み取って、すでに処理されているファイルを無視する必要があります。

どうすれば簡単にできますか?どんなアイディアも大歓迎です。理想的には、記述されているようにプロセスを正確に実行するPython(またはJava)スクリプトを期待しています。

ありがとうございました。

+0

は、なぜあなたははmysql-> S3から行くためにDMSを設定したリンクの下を参照してください? mysql-> redshiftではなく?つまり、すべてのデータを赤色シフト「ステージング」領域にロードしてから、赤色シフトでデータ変換を直接実行しますか? –

+0

私が言及したように私はデータ湖を建設しています。生データは専用の湖であるS3にとどまる必要があります。 – ChrisK

答えて

1

S3宛先を自動的に監視し、CSVをパーケットに変換するようにAWS Glueを設定することをおすすめします。 http://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html - - https://github.com/awslabs/aws-glue-samples

次に選択ロードおよび/またはデータ湖から直接データを照会するためにアマゾン赤方偏移スペクトラムを使用しています。 - ラムダ機能およびトリガーを使用しhttp://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html

+0

これは良い答えです。データの湖が本当に必要であることを確認してください。レッドシフトの中心的な解決策よりも重大な合併症や費用を追加することになります –

関連する問題