Amazon S3に格納されているファイルにはデータの束があり、それを使ってRedshiftでデータボールトを構築する予定です。私のの最初の質問は、RedshiftでDVとデータマートを構築するのが適切なのか、S3を私のデータレイクとみなし、Redshiftでデータマートしか持たないのかが問題です。RedshiftとETL戦略のデータボールト
私のアーキテクチャでは、私は現在前者のS3 Data Lake + Redshift VaultとMartsを検討中です。しかし、RedshiftでETLプロセスを直接作成して、マートにVault内のデータを移入できるかどうか、あるいはAmazon EMRを使用してS3の生データを処理して新しいファイルを生成しなければならないかどうかはわかりません。最終的にマートでそれらをロードします。
したがって、私のの2番目の質問は次のとおりです。ETL戦略は何ですか?ありがとう。
S3はリレーショナルではなく、基本的にファイルを格納するためのものです。データボールトはリレーショナルデータベースに実装されているため、S3でデータボルトを作成することはできません。 S3であなたのハブ、リンク、サテライトをどのように構築しますか?用語を探しているのであれば、S3はあなたの 'データ湖'と呼ばれるかもしれません(今は汚いと感じています) –
@ Nick.McDermaid、そうです。私は私のアーキテクチャではデータ湖としてS3を考えてきました。私の質問は、レッドシフトのDVとデータマート、または湖のデータからデータマートだけを入手することです(質問を編集します)。私が考えているのは、S3でVaultにデータをロードしてから、Vaultからのデータをマートにロードすることです。しかし、RedshiftでETLプロセスを直接作成できるかどうか、またはAmazon EMRなどでS3のファイルを処理して、マートとロード用の新しいファイルを生成しなければならないかどうかはわかりませんそれはRedshiftで? –
データ保管庫が必要な場合は、赤色シフトで構築する必要があります。ファイルをDVまたはDMに読み込むことができます。 DVが必要な場合は、ビューを使用してDVにDVをロードしたり、挿入/更新ステートメントを削除したりすることができます。ファイルを再度エクスポートしてインポートする必要はありません。 Redshiftにファイルをロードするには、ある種のスケジューリング/ジョブ実行ツールが必要です(AWS上であろうとなかろうと)redshiftに接続し、データをロードするためにredshift内で 'COPY'コマンドを実行する必要があります。私はこれをやっているプロジェクトを調査しましたが、これはまだ始まったことはありませんでした。 –