CsvファイルからDatalakeへデータを自動取得する最良の方法

csvファイルからデータを取得して（毎日別のビジネスデータベースからデータを取り出す）、HDFSに移行してからHbaseに移動し、このデータをデータマート（sqlServer）。CsvファイルからDatalakeへデータを自動取得する最良の方法

私は（Javaやhadoopsツールを使用して）、このプロセスを自動化するための最良の方法を知って

必要なコーディングなしにリトル

出典

2017-09-12 rnside

をご希望ですか？順不同

のTalendオープンスタジオ
Streamsetsデータコレクタ
アパッチNifi

でセットアップあなたにカフカのクラスタを可能と仮定すると、あなたはカフカの接続

したい場合を試すことができますたぶんスパーク。それ以外の場合は、好きな言語を選んでください。あなたは、生のHDFSデータを必要としない場合、あなたは私が再上記のコメントをエコーしたいのHBase

出典

2017-09-13 01:32:07

のTHX @のcricket_007を答え。「なぜhbaseに直接着陸できないのか」ということをどういう意味ですか？ – rnside

CSVを解析してHbaseテーブルに書き込むコードを記述します。 hbaseはすでにhdfsデータを超えているので、hdfsに入れてHbaseにロードする必要はありません –

実際には、同じデータを必要とする他のアプリケーションが存在することを理解しています。直接hdfsから。私だけがhbaseが必要です。 – rnside

に直接読み込むことができOozie

経由でジョブをスケジュールします。 Kafka Connectは、Apache Kafkaの一部です。これで、設定ファイルを使用してソースからストリーミングするだけで、KSQLを使用して派生/豊富/集約ストリームを作成し、HDFS/Elastic/HBase/JDBC/etcなどにストリームすることができます。

リストがありますカフカ接続コネクタhere。

このブログシリーズは、基本を歩く：

出典

2017-09-14 07:56:47

Thx Robin、私はkafka connctorsについて読むことを始めました。これは簡単で安価です。私はこの部分を告白し、何が起こるか見る。 Thx再び良いブログbtw;） – rnside

CsvファイルからDatalakeへデータを自動取得する最良の方法

答えて

関連する問題