EARツールを交換することができます

既存のプロセス - 生の構造データがRedshiftのステージングレイヤーにコピーされます。その後、Informatica、TelendなどのETLツールを使用して、Datamart/datawarehouseのFactおよびDimensionテーブルにインクリメンタルロードを行います。すべての結合はデータベースレイヤー内で行われます（ETLはクエリをDBにプッシュします） - SparkはETLツールを置き換え、同じ処理を行い、Redshiftにデータをロードできますか？ - このアーキテクチャのメリットとデメリットは何ですか？EARツールを交換することができます

出典

2016-11-25 Dipankar

Spark Summitからこのビデオを見るhttps://www.youtube.com/watch?v=vZhSbs1xLx4 :) –

Redshiftのデータ統合についての私の理解は、それがELT - 抽出、ロード、変換であるということです。このためには、SQL文を実行および管理するためのスケジューリング・ツールだけのETLツールは必要ありません。私は、Apacheが発したことを知りません。私にとっては、唯一の欠点は次のとおりです。1.あなたは素晴らしいマッピングをすべて見るためのGUIを持っていません。 2.外部関数（zip、FTPing、Webサービス呼び出し）を実行することは、データベース内で行うのが難しいことがよくあります。 –

InformaticaをSparkに置き換える理由がわかりました。 Informatica BDM 10.1エディションにはSpark実行エンジンが付属しています。これは、InformaticaのマッピングをSparkに相当するもの（Scalaコード）に変換し、クラスタ上で実行します。また、私の意見では、スパークはETLの場合と同様に、データが変換から変換に変わる中間データではなく、より適しています。

出典

2016-11-29 06:25:24 Volamr

a）Informaticaは高価です。 b）膨大な量のデータ（大きなデータ）を使用すると、ストレージから処理サーバー（Informatica）へのデータ移動が高価になる（処理時間に関して） 3）Informaticaは、上記のデータ処理上の問題を解決するために、。 UIと急速な開発環境のためだけにinformaticaを支払うことができます（Apache ni-fiを検討してください）。 4）SparkはETLだけでなく、機械学習、リアルタイムストリーミングなどのユースケースを持っている場合に便利です。 Informaticaの代わりにSparkを使用する際の欠点を知りたいと思います。 – Dipankar

EARツールを交換することができます

答えて

関連する問題