2017-03-09 5 views
0

私たちは、AWS上のデータ湖ソリューションの作成を研究している - ここで説明されているものと同様にする - https://aws.amazon.com/blogs/big-data/introducing-the-data-lake-solution-on-aws/アマゾン赤方偏移でELT対ETL

我々はS3にすべての「生」のデータを格納することになり、EMRにロードしますか、必要に応じて赤方偏移。

この段階では、Amazon Redshiftにデータを読み込むためにETLまたはELTのどちらを使用するかについての提案を探しています。 ETL/ELTにはTalendを使用します。

変換前にRedshiftのS3から「生の」データを最初にステージするか、S3のデータを変換してRedshiftにロードする必要がありますか?

私は何か提案/アドバイスをいただければ幸いです。

ありがとうございます。

答えて

2

間違いなくELT。

ETL の場合は、生データを1回コピーしてから、COPYを使用してRedshiftにロードしてから何も変換しないことが唯一のケースです。それでもS3の内外にデータをシフトするので、このユースケースはより高速になるとは思えません。

情報のフィルタリング、結合などの変換が必要になるとすぐに、DBMSで行う方がはるかに高速です。データ変換が既にDWにあるデータに依存している場合には、より速いオーダーになります。

異なるDWプラットフォームで数百のELTジョブを実行し、データの取り込みと変換の代替方法をパフォーマンステストします。私たちの経験では、MPP DWにおけるETLとELTの差は2000+%になる可能性があります。

1

これは、Redshiftを使用する目的によって異なります。あなたのビジネスケースがRedshift(またはRedshiftをバックエンドとして使用するフロントエンドアプリケーション)に対してデータを照会する場合は、RedshiftでETLを実行することはお勧めしません。この場合、事前にビジネス変換を実行してください(例:S3-> EMR-> S3)。その後、処理されたデータをRedshiftにロードすることをお勧めします。

関連する問題