2016-11-17 19 views
2

以下の要件を満たしています。Hadoopデータの処理

データベーステーブルにキー入力を行うアップストリームシステムがあります。このエントリは、一連のデータがデータベース表(oracle)で使用可能であることを示します。このデータを取り込み、それを寄木細工ファイルとして保存する必要があります。データの処理は必要ありません。この摂取プロセスは、新しいキー入力が利用可能になるたびに開始されます。

この問題については、キー入力をポーリングするデータベースポーラーを用意する予定です。そのエントリを読み取った後、Oracle表からデータを取り込む必要があります。この摂取目的では、どのツールが最適ですか?それはKafka、Sqoop、Spark-SQLなどですか?助けてください。

また、csvファイルも取り込む必要があります。ファイルが完全に書き込まれた場合にのみ、取り込みを開始する必要があります。私もこれを実行する方法を教えてください。

答えて

0

Sqoopを使用すると、Hadoopファイルシステムのデータベースからデータをインポートできます。

+0

入力いただきありがとうございます。あなたはカフカではない理由を親切に説明できますか?また、専門知識が不足しているため、単一の技術を使用してOracleファイルとcsvファイルの両方からデータを取り込みたいと考えています。親切に助けてください。 –

2

摂取リレーショナルデータのためのあなたはsqoopを使用することができますし、あなたのシナリオのために、あなたはhttps://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_incremental_imports

書き込みsqoop増分バックアップジョブを見ていると、毎回sqoop仕事はあなたがHDFS内のデータを更新しただろうに実行するcronのを使用して、それをスケジュールすることができます。

.csvファイルの場合、flumeを使用できます。参照: https://www.rittmanmead.com/blog/2014/05/trickle-feeding-webserver-log-files-to-hdfs-using-apache-flume/

+0

あなたのご意見ありがとうございます。あなたはカフカではない理由を親切に説明できますか?また、専門知識が不足しているため、単一の技術を使用してOracleファイルとcsvファイルの両方からデータを取り込みたいと考えています。親切に助けてください。 –