csvファイルからデータを取得して(毎日別のビジネスデータベースからデータを取り出す)、HDFSに移行してからHbaseに移動し、このデータをデータマート(sqlServer) 。CsvファイルからDatalakeへデータを自動取得する最良の方法
私は(Javaやhadoopsツールを使用して)、このプロセスを自動化するための最良の方法を知って
必要なコーディングなしにリトルcsvファイルからデータを取得して(毎日別のビジネスデータベースからデータを取り出す)、HDFSに移行してからHbaseに移動し、このデータをデータマート(sqlServer) 。CsvファイルからDatalakeへデータを自動取得する最良の方法
私は(Javaやhadoopsツールを使用して)、このプロセスを自動化するための最良の方法を知って
必要なコーディングなしにリトルをご希望ですか?順不同
でセットアップあなたにカフカのクラスタを可能と仮定すると、あなたはカフカの接続
したい場合を試すことができますたぶんスパーク。それ以外の場合は、好きな言語を選んでください。あなたは、生のHDFSデータを必要としない場合、あなたは私が再上記のコメントをエコーしたいのHBase
に直接読み込むことができOozie
経由でジョブをスケジュールします。 Kafka Connectは、Apache Kafkaの一部です。これで、設定ファイルを使用してソースからストリーミングするだけで、KSQLを使用して派生/豊富/集約ストリームを作成し、HDFS/Elastic/HBase/JDBC/etcなどにストリームすることができます。
リストがありますカフカ接続コネクタhere。
このブログシリーズは、基本を歩く:
Thx Robin、私はkafka connctorsについて読むことを始めました。 これは簡単で安価です。私はこの部分を告白し、何が起こるか見る。 Thx再び良いブログbtw;) – rnside
のTHX @のcricket_007を答え。 「なぜhbaseに直接着陸できないのか」ということをどういう意味ですか? – rnside
CSVを解析してHbaseテーブルに書き込むコードを記述します。 hbaseはすでにhdfsデータを超えているので、hdfsに入れてHbaseにロードする必要はありません –
実際には、同じデータを必要とする他のアプリケーションが存在することを理解しています。直接hdfsから。私だけがhbaseが必要です。 – rnside