このように見えるのデータフレームを作成するために、私のデータをスパークストリーミングでScalaの

私は受け付けておりカフカを使用して処理するHBaseのためにデータフレームをストリーミングこの火花を送信：このように見えるのデータフレームを作成するために、私のデータをスパークストリーミングでScalaの

+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
|id |sen      |attributes                                     | 
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
|1 |Stanford is good college.|[[Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.], [Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.]]| 
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+

私は、列のidとATTとHBaseのテーブル「kafkaStreaming」を持っています。私はこのデータをhbaseに "ID"を行キーとして保存し、att [例：Stanford、ORGANIZATION、NNP]、[is、O、VBZ]、[good、O、JJ]

このデータが来るたびに、列ファミリを動的に追加する必要があります。助けてください。

出典

2016-08-10 Aayush Rampal

PUTオブジェクトに変換してHBASEに注入する方法を知りたい –

-1

私たちは、あなたが低レベルのビットを書き込むしようとする場合は、動的のHBaseプットを作成し、関数呼び出しまたはOUTPUTFORMATを介してそれらを実行することができますSplice Machine

で、このためのサンプルコードを持っています。 Put構文では、必要な数の列ファミリを使用できます。

このアプローチでは、失敗のセマンティクスはあまり熱くない傾向があります。どのように失敗などをロールバックしますか？

出典

2016-08-10 05:39:16

実際にスカラーコードを探しています –

意味があります。私たちのコードはすべてJava（役立たない）です。 Clouderaには、https://github.com/cloudera-labs/SparkOnHBaseにあるオープンソースコードがあります。彼らはHbaseとやりとりするための最小限のスケーラコードを持っています。お役に立てれば。 –

このように見えるのデータフレームを作成するために、私のデータをスパークストリーミングでScalaの

答えて

関連する問題