私は現在S3内にデータレイクを構築しており、DMSを使用してmysql DBからS3にデータを正常に移動しました。 DMS内では、「既存のデータを移行し、継続中の変更を複製する」というオプションを選択しました。私はcsvにデータを変換しましたが、将来はおそらく寄木細工を選択するでしょう。このメソッドは、データベーステーブルのすべての生データを持つ初期csvファイルを作成します。その後、挿入、削除、更新を伴う後続のcsvファイルを作成します。Amazon S3からRedshiftへのETLデータ
私はS3からRedshiftにデータをコピーする戦略を探しています。私は一括データをコピーし、S3からRedshiftへの継続的な変更をコピーする戦略を探しています。おそらくこのデータの多くを集約して要約する必要があります。私は、Pythonを使用するAWS Glueを使用することをお勧めします。このETLプロセスでは、S3のcsvファイルから読み取って、すでに処理されているファイルを無視する必要があります。
どうすれば簡単にできますか?どんなアイディアも大歓迎です。理想的には、記述されているようにプロセスを正確に実行するPython(またはJava)スクリプトを期待しています。
ありがとうございました。
は、なぜあなたははmysql-> S3から行くためにDMSを設定したリンクの下を参照してください? mysql-> redshiftではなく?つまり、すべてのデータを赤色シフト「ステージング」領域にロードしてから、赤色シフトでデータ変換を直接実行しますか? –
私が言及したように私はデータ湖を建設しています。生データは専用の湖であるS3にとどまる必要があります。 – ChrisK