2017-09-12 15 views
0

csvファイルからデータを取得して(毎日別のビジネスデータベースからデータを取り出す)、HDFSに移行してからHbaseに移動し、このデータをデータマート(sqlServer) 。CsvファイルからDatalakeへデータを自動取得する最良の方法

私は(Javaやhadoopsツールを使用して)、このプロセスを自動化するための最良の方法を知って

必要なコーディングなしにリトル

答えて

1

をご希望ですか?順不同

  • のTalendオープンスタジオ
  • Streamsetsデータコレクタ
  • アパッチNifi

でセットアップあなたにカフカのクラスタを可能と仮定すると、あなたはカフカの接続

したい場合を試すことができますたぶんスパーク。それ以外の場合は、好きな言語を選んでください。あなたは、生のHDFSデータを必要としない場合、あなたは私が再上記のコメントをエコーし​​たいのHBase

+0

のTHX @のcricket_007を答え。 「なぜhbaseに直接着陸できないのか」ということをどういう意味ですか? – rnside

+0

CSVを解析してHbaseテーブルに書き込むコードを記述します。 hbaseはすでにhdfsデータを超えているので、hdfsに入れてHbaseにロードする必要はありません –

+0

実際には、同じデータを必要とする他のアプリケーションが存在することを理解しています。直接hdfsから。私だけがhbaseが必要です。 – rnside

1

に直接読み込むことができOozie

経由でジョブをスケジュールします。 Kafka Connectは、Apache Kafkaの一部です。これで、設定ファイルを使用してソースからストリーミングするだけで、KSQLを使用して派生/豊富/集約ストリームを作成し、HDFS/Elastic/HBase/JDBC/etcなどにストリームすることができます。

リストがありますカフカ接続コネクタhere

このブログシリーズは、基本を歩く:

+0

Thx Robin、私はkafka connctorsについて読むことを始めました。 これは簡単で安価です。私はこの部分を告白し、何が起こるか見る。 Thx再び良いブログbtw;) – rnside

関連する問題