2016-12-08 14 views
2

スパークストリーミングジョブをセットアップしてHBaseテーブルを追跡し、バッチごとに新しい/更新された行を読み取ることは可能ですか?ブログhereは、HDFSファイルがサポートされているソースの下に来ると言います。しかし、彼らは次の静的APIを使用しているようです:スパークストリーミング:ソースHBase

sc.newAPIHadoopRDD(..) 

私はこれに関するドキュメントを見つけることができません。スパークストリーミングコンテキストを使用してhbaseからストリーミングすることは可能ですか?どんな助けもありがとうございます。

ありがとうございます!

答えて

1

提供リンク以下

  1. は、ストリーミングデータを読むん - 配置し、HBaseのテーブルに追加のHBaseに変換します。これまで、そのストリーミング。これは、あなたの摂取プロセスがストリーミングしていることを意味します。

  2. 統計計算部分は、バッチと思いますが、これは新しいAPIHadoopRDDを使用しています。このメソッドは、データ読み取り部分をファイルとして扱います。この場合、ファイルは、HBaseのからのもの - 以下の入力フォーマット

ヴァルhBaseRDD = sc.newAPIHadoopRDD(CONF、classOfは[TableInputFormat]、 classOf [org.apache.hadoop理由のthats。 hbase.io.ImmutableBytesWritable]、 classOf [org.apache.hadoop.hbase.client.Result])

あなたはストリーミングなどのHBaseでの更新を読みたい場合は、あなたがWALのハンドルを持っている必要がありますバックエンドにHBaseのログを書き込んでから操作してください。 HBase-indexerは、HBaseのアップデートを読むのに適した場所です。

私はhbase-indexerを使ってバックエンドでhbaseのアップデートを読み、到着時にそれらをsolrに誘導しました。お役に立てれば。

関連する問題