コアスパークを使用してバフ処理用のカフカからメッセージを読み取る方法

スパークストリーミングなしでカフカからメッセージを読み取ることはできますか？私はバッチ処理の目的のためにSpark Coreライブラリでのみ意味します。「はい」の場合は、方法の例を示してください。私はHDP 2.4、Kafka 0.9、およびSpark 1.6を使用しています。コアスパークを使用してバフ処理用のカフカからメッセージを読み取る方法

出典

2016-10-12 nilesh1212

スパークストリーミングカフカAPIにはKafkaUtilsというクラスがあります。

https://github.com/apache/spark/blob/master/external/kafka-0-8/src/main/scala/org/apache/spark/streaming/kafka/KafkaUtils.scala

このクラスからは、基本的にオフセットを期待している方法createRDDを、使用することができますし、それが唯一の非ストリーミングアプリケーションのために有用です。

依存ジャー：

<dependency> 
    <groupId>org.apache.spark</groupId> 
    <artifactId>spark-streaming-kafka_2.10</artifactId> 
    <version>1.6.0</version> 
</dependency>

また、たとえばあなたがカフカConnectを使用してカフカトピックのデータを読み取り、HDFS内のデータを取り込み、その非常にシンプルにしたい、カフカの接続を確認してください。

http://docs.confluent.io/3.0.0/connect/ http://www.confluent.io/product/connectors/

出典

2016-10-13 17:10:11 Shankar

シャンカルありがとう、私はこのAPI用のKerberosのために何を設定する必要がありますか？ – nilesh1212

@ nilesh1212：必須ではありません.pom.xmlに依存関係を追加するだけで、そのクラスを使用できます。 – Shankar

@ nilesh1212：カフカを入力ソースとして使用しているので、なぜSparkストリーミングを使用しないのですか？ – Shankar

コアスパークを使用してバフ処理用のカフカからメッセージを読み取る方法

答えて

関連する問題