アマゾン赤方偏移でELT対ETL

私たちは、AWS上のデータ湖ソリューションの作成を研究している - ここで説明されているものと同様にする - https://aws.amazon.com/blogs/big-data/introducing-the-data-lake-solution-on-aws/アマゾン赤方偏移でELT対ETL

我々はS3にすべての「生」のデータを格納することになり、EMRにロードしますか、必要に応じて赤方偏移。

この段階では、Amazon Redshiftにデータを読み込むためにETLまたはELTのどちらを使用するかについての提案を探しています。 ETL/ELTにはTalendを使用します。

変換前にRedshiftのS3から「生の」データを最初にステージするか、S3のデータを変換してRedshiftにロードする必要がありますか？

私は何か提案/アドバイスをいただければ幸いです。

ありがとうございます。

出典

2017-03-09 Raj

間違いなくELT。

ETL がの場合は、生データを1回コピーしてから、COPYを使用してRedshiftにロードしてから何も変換しないことが唯一のケースです。それでもS3の内外にデータをシフトするので、このユースケースはより高速になるとは思えません。

情報のフィルタリング、結合などの変換が必要になるとすぐに、DBMSで行う方がはるかに高速です。データ変換が既にDWにあるデータに依存している場合には、より速いオーダーになります。

異なるDWプラットフォームで数百のELTジョブを実行し、データの取り込みと変換の代替方法をパフォーマンステストします。私たちの経験では、MPP DWにおけるETLとELTの差は2000+％になる可能性があります。

出典

2017-03-11 21:57:01

これは、Redshiftを使用する目的によって異なります。あなたのビジネスケースがRedshift（またはRedshiftをバックエンドとして使用するフロントエンドアプリケーション）に対してデータを照会する場合は、RedshiftでETLを実行することはお勧めしません。この場合、事前にビジネス変換を実行してください（例：S3-> EMR-> S3）。その後、処理されたデータをRedshiftにロードすることをお勧めします。

出典

2017-03-09 21:29:30

アマゾン赤方偏移でELT対ETL

答えて

関連する問題