2017-03-13 6 views
0

現在、50 TBのOracleデータウェアハウスをAmazon Redshiftに移行する予定です。Amazon Redshift Framework(Oracleデータウェアハウスの移行)

異なるOLTPデータ・ソースからのデータは、最初にOracleステージング・データベースでステージングされ、現在データウェアハウスにロードされています。現在、データはステージング・データベース内の多数のPL/SQLストアド・プロシージャを使用して変換され、データ・ウェアハウスにロードされます。

OLTPデータソース1 - > JMS(MQ)リアルタイム - >のOracle STGデータベース - > OracleのDW

注:JMS MQの消費者は、ステージング・データベースにデータを書き込む

> CDC増分データ(一回10分で) - -

OLTPデータソース2>のOracle DatabaseのSTG - > OracleのDW

注:チェンジ・データ・キャプチャsourcにe側のデータは10分でステージングデータベースにロードされます。

このスタックをAmazon Redshiftに完全に移行(ハイライト表示)するには、どのようなフレームワークが適していますか?移行できるAWS内のさまざまなコンポーネントは何ですか?

答えて

2

ワウは、大きな作品のようです。ここでは、すべてのことを考慮する必要があることがあります。

おそらくAWSデータベース移行サービス(https://aws.amazon.com/dms/)が最適な出発点です。これは、スキーマの変換と手動で移行する必要がある領域の強調表示に関して、多くの作業を行うことができます。

S3を主なステージング領域とみなしてください。 Redshiftにロードする前に、すべての(またはほぼすべての)データをS3に格納する必要があります。データがどのように配置されているかを非常に慎重に検討してください。特に、パーティション接頭辞(s3://my_bucket/YYYYMMDDHHMI/filesまたはs3://my_bucket/year=YYYY/month=MM/day=DD/hour=HH/minute=MI/files)を使用することをお勧めします。

PL/SQLロジックはRedshiftに移植できません。非SQLパーツをbashまたはPythonに変換し、外部ツールを使用してRedshiftでSQLパーツを実行する必要があります。私はあなたがApache Airflow(Python)またはAzkaban(bash)で始めることをお勧めします。純粋なAWSを維持したい場合は、データパイプライン(推奨されません)を試すか、AWS Glueがリリースされるまで待ってください(有望 - 未テスト)。

現在、JMSによって行われている作業にAmazon Kinesis Firehoseを使用することができますが、Kinesisの理想的な使用方法はJMSの一般的な使用方法(AFAICT)とは大きく異なります。

幸運

関連する問題