2016-10-12 3 views

答えて

1

スパークストリーミングカフカAPIにはKafkaUtilsというクラスがあります。

https://github.com/apache/spark/blob/master/external/kafka-0-8/src/main/scala/org/apache/spark/streaming/kafka/KafkaUtils.scala

このクラスからは、基本的にオフセットを期待している方法createRDDを、使用することができますし、それが唯一の非ストリーミングアプリケーションのために有用です。

依存ジャー:

<dependency> 
    <groupId>org.apache.spark</groupId> 
    <artifactId>spark-streaming-kafka_2.10</artifactId> 
    <version>1.6.0</version> 
</dependency> 

また、たとえばあなたがカフカConnectを使用してカフカトピックのデータを読み取り、HDFS内のデータを取り込み、その非常にシンプルにしたい、カフカの接続を確認してください。

http://docs.confluent.io/3.0.0/connect/ http://www.confluent.io/product/connectors/

+0

シャンカルありがとう、私はこのAPI用のKerberosのために何を設定する必要がありますか? – nilesh1212

+0

@ nilesh1212:必須ではありません.pom.xmlに依存関係を追加するだけで、そのクラスを使用できます。 – Shankar

+0

@ nilesh1212:カフカを入力ソースとして使用しているので、なぜSparkストリーミングを使用しないのですか? – Shankar

関連する問題