スパークストリーミング：ソースHBase

スパークストリーミングジョブをセットアップしてHBaseテーブルを追跡し、バッチごとに新しい/更新された行を読み取ることは可能ですか？ブログhereは、HDFSファイルがサポートされているソースの下に来ると言います。しかし、彼らは次の静的APIを使用しているようです：スパークストリーミング：ソースHBase

sc.newAPIHadoopRDD(..)

私はこれに関するドキュメントを見つけることができません。スパークストリーミングコンテキストを使用してhbaseからストリーミングすることは可能ですか？どんな助けもありがとうございます。

ありがとうございます！

出典

2016-12-08 void

提供リンク以下

は、ストリーミングデータを読むん - 配置し、HBaseのテーブルに追加のHBaseに変換します。これまで、そのストリーミング。これは、あなたの摂取プロセスがストリーミングしていることを意味します。
統計計算部分は、バッチと思いますが、これは新しいAPIHadoopRDDを使用しています。このメソッドは、データ読み取り部分をファイルとして扱います。この場合、ファイルは、HBaseのからのもの - 以下の入力フォーマット

ヴァルhBaseRDD = sc.newAPIHadoopRDD（CONF、classOfは[TableInputFormat]、 classOf [org.apache.hadoop理由のthats。 hbase.io.ImmutableBytesWritable]、 classOf [org.apache.hadoop.hbase.client.Result]）

あなたはストリーミングなどのHBaseでの更新を読みたい場合は、あなたがWALのハンドルを持っている必要がありますバックエンドにHBaseのログを書き込んでから操作してください。 HBase-indexerは、HBaseのアップデートを読むのに適した場所です。

私はhbase-indexerを使ってバックエンドでhbaseのアップデートを読み、到着時にそれらをsolrに誘導しました。お役に立てれば。

出典

2016-12-08 16:14:46 Ramzy

スパークストリーミング：ソースHBase

答えて

関連する問題