2017-11-22 4 views
0

OracleとMysqlからデータを読み込みたい。次に、OracleとMysqlから読み込まれたデータを比較する必要があり、出力はMSSQLサーバーに格納されます。私はC#でMapReduceジョブを使用してこれをすべて実行したい。OracleとMySqlのデータを読み取るMapReduceジョブを作成できますか?

Hadoopマルチノードクラスタを構成し、MapReduceジョブを実行してOracleとMySQLからデータを読み取る場合、MapReduceが読み取るデータはクラスタ内の複数のノードのメモリに分散されます。

答えて

0

あなたはあなたが言ったことすべてを行うためにMRを使うことができます。あるいは、いくつかの組み込みツールを使うことができます。

  1. DBからデータを読み込んでHDFSにダンプするには、Sqoopを使用します。
  2. MRを使用してHDFSからデータを読み取り、ビジネスロジックを実行します。
  3. MRの出力はHDFSに保存され、DBにプッシュされたSQoopを使用して再び保存されます。

Sqoopは、MapReduceを介してデータをデータベースにプル/プッシュするためのラッパーです。 同じように独自のカスタムMapReduceを書くことができます。

+0

HDFSにデータを保存したくない場合は、何が選択肢ですか。 ? –

+0

カスタムスパークジョブを作成します。 mysqlから読み込み、ビジネスロジックを適用して別のDBに書き込みます。すべてがSparkで起こり、間にHDFSはありません。 – KrazyGautam

+0

sqoopやsparkを使用する代わりにMapReduceで同じことを実行できますか?私自身のMR仕事を書きたい –

関連する問題