4

既存のプロセス - 生の構造データがRedshiftのステージングレイヤーにコピーされます。その後、Informatica、TelendなどのETLツールを使用して、Datamart/datawarehouseのFactおよびDimensionテーブルにインクリメンタルロードを行います。すべての結合はデータベースレイヤー内で行われます(ETLはクエリをDBにプッシュします) - SparkはETLツールを置き換え、同じ処理を行い、Redshiftにデータをロードできますか? - このアーキテクチャのメリットとデメリットは何ですか?EARツールを交換することができます

+2

Spark Summitからこのビデオを見るhttps://www.youtube.com/watch?v=vZhSbs1xLx4 :) –

+1

Redshiftのデータ統合についての私の理解は、それがELT - 抽出、ロード、変換であるということです。このためには、SQL文を実行および管理するためのスケジューリング・ツールだけのETLツールは必要ありません。私は、Apacheが発したことを知りません。私にとっては、唯一の欠点は次のとおりです。1.あなたは素晴らしいマッピングをすべて見るためのGUIを持っていません。 2.外部関数(zip、FTPing、Webサービス呼び出し)を実行することは、データベース内で行うのが難しいことがよくあります。 –

答えて

0

InformaticaをSparkに置き換える理由がわかりました。 Informatica BDM 10.1エディションにはSpark実行エンジンが付属しています。これは、InformaticaのマッピングをSparkに相当するもの(Scalaコード)に変換し、クラスタ上で実行します。 また、私の意見では、スパークはETLの場合と同様に、データが変換から変換に変わる中間データではなく、より適しています。

+0

a)Informaticaは高価です。 b)膨大な量のデータ(大きなデータ)を使用すると、ストレージから処理サーバー(Informatica)へのデータ移動が高価になる(処理時間に関して) 3)Informaticaは、上記のデータ処理上の問題を解決するために、 。 UIと急速な開発環境のためだけにinformaticaを支払うことができます(Apache ni-fiを検討してください)。 4)SparkはETLだけでなく、機械学習、リアルタイムストリーミングなどのユースケースを持っている場合に便利です。 Informaticaの代わりにSparkを使用する際の欠点を知りたいと思います。 – Dipankar

関連する問題