2016-05-04 6 views
-5
Migrating the data from Legacy database [~50 TB] to New Database. 
Migrating data from staging database[ 5GB per 1 hr] to New Database. 

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data) 

Hadoopエコシステムを使用したアーキテクチャを適切に提供します。hadoopを使って以下のusecaseを解決するには?

答えて

1

私はClouderaのマネージャーとCDH(hadoop)ができると思います。

ETL:Sqoop 2 SQL:Hive & Impala データマイニング:Spark。

Sqoopは簡単にあなたのデータを照会するために(SQL、メタデータ、ワークフローを記述するためにWebインターフェイス)HUEを使用することができ、その後

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table 

Hadoopのためにあなたのレガシー・データベースから(簡単なコマンド)のデータをロードすることができます。

ImpalaはClouderaのMPPデータベースです。

スケールアウトは簡単です。

マスターノード(* 1):64Gメモリ スレーブノード(* 3):32Gメモリ

の負荷少量

コンセプトの証明のためにまず

、あなたは4つのノードからクラスタを起動することができますデータをデータレイクに変換する。 これが終了したら、スケールアウトしてノードをデータレイクに追加できます。