2016-08-10 6 views
1

私は受け付けておりカフカを使用して処理するHBaseのためにデータフレームをストリーミングこの火花を送信:このように見えるのデータフレームを作成するために、私のデータをスパークストリーミングでScalaの

+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
|id |sen      |attributes                                     | 
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
|1 |Stanford is good college.|[[Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.], [Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.]]| 
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+ 

私は、列のidとATTとHBaseのテーブル「kafkaStreaming」を持っています。私はこのデータをhbaseに "ID"を行キーとして保存し、att [例:Stanford、ORGANIZATION、NNP]、[is、O、VBZ]、[good、O、JJ]

このデータが来るたびに、列ファミリを動的に追加する必要があります。助けてください。

+0

PUTオブジェクトに変換してHBASEに注入する方法を知りたい –

答えて

-1

私たちは、あなたが低レベルのビットを書き込むしようとする場合は、動的のHBaseプットを作成し、関数呼び出しまたはOUTPUTFORMATを介してそれらを実行することができますSplice Machine

で、このためのサンプルコードを持っています。 Put構文では、必要な数の列ファミリを使用できます。

このアプローチでは、失敗のセマンティクスはあまり熱くない傾向があります。どのように失敗などをロールバックしますか?

+0

実際にスカラーコードを探しています –

+0

意味があります。私たちのコードはすべてJava(役立たない)です。 Clouderaには、https://github.com/cloudera-labs/SparkOnHBaseにあるオープンソースコードがあります。彼らはHbaseとやりとりするための最小限のスケーラコードを持っています。お役に立てれば。 –

関連する問題