2017-08-05 11 views
0

私のカフカクラスターのバージョンは0.10.0.0です。私はカスカデータを読み込むためにpysparkストリームを使いたいと思います。 Spark Streaming + Kafka統合ガイドでは、http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html にはPythonコードの例はありません。 kafkaを統合するためにspark-streaming-kafka-0-10を使用することはできますか?pysparkはspark-streaming-kafka-0-10 libをサポートしていますか?

ありがとうございました!

答えて

0

また、カフカ0.10.0クラスターでスパークストリーミングを使用します。あなたのコードに次の行を追加した後、あなたは良いです。ここ

spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0 

とPythonのサンプル:

# Initialize SparkContext 
sc = SparkContext(appName="sampleKafka") 

# Initialize spark stream context 
batchInterval = 10 
ssc = StreamingContext(sc, batchInterval) 

# Set kafka topic 
topic = {"myTopic": 1} 

# Set application groupId 
groupId = "myTopic" 

# Set zookeeper parameter 
zkQuorum = "zookeeperhostname:2181" 

# Create Kafka stream 
kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, groupId, topic) 

#Do as you wish with your stream 
# Start stream 
ssc.start() 
ssc.awaitTermination() 
関連する問題