2017-01-19 12 views
0

spark 2.1とKafka 0.10.1を使用しています。Kafka consumer in sparkの使用方法

カフカの特定のトピックのデータ全体を日常的に読むことでデータを処理したいと考えています。

スパークストリーミングの場合、createDirectStreamはトピックのリストといくつかの設定情報を引数として含める必要があることを知っています。

しかし、私は、createRDDがトピック、パーティション、およびオフセット情報をすべて含んでいなければならないことに気付きました。

私はスパークでストリーミングするのと同じくらい便利なバッチ処理をしたいと思います。

可能ですか?

答えて

-1

Clouderaからこのテキストを読むことをお勧めします。

この例では、カフカのデータを1回だけ取得する方法を示します。あなたはACID archtectureのためにpostgresのオフセットを維持します。

あなたの問題を解決できることを願っています。

関連する問題