カフカの消費者からスパークストリーミング

私はカフカと仕事をする必要があるかもしれません。私はそれを絶対に新しくしています。私は、カフカのトピックでログを取得するカフカのプロデューサーがいることを理解しています。カフカの消費者からスパークストリーミング

私は消費者からKafkaトピックから読むことに取り組む必要があります。コンシューマーAPIを設定してから、SparkStreaming Context（PySpark）を使用してストリーミングするか、KafkaUtilsモジュールを直接使用してkafkaトピックを読むことができますか？

私はKafkaコンシューマアプリケーションをセットアップする必要がある場合、どうすればよいですか？右のドキュメントへのリンクを共有できますか？

ありがとうございました！

出典

2016-07-01 Puneet Tripathi

スパークはカスタムコンシューマーを作成する必要がない内部カフカストリームを提供します。カフカ1と受信機2の直接アプローチで接続する2つのアプローチがあります。詳細については、このリンクを参照してくださいhttp://spark.apache.org/docs/latest/streaming-kafka-integration.html

出典

2016-07-01 06:01:53

これはPythonをサポートしていない場所です。あなたはKafkaからストリームを読み込もうとしましたが、そこからログを少しでも消費するコードスニペットを共有できますか？ –

ああ、それはpysparkでサポートされないので、カスタムストリームを作成することができますhttp://spark.apache.org/docs/latest/streaming-custom-receivers.html –

kafkaコンシューマアプリケーションを設定する必要はありません、スパーク自体は2つのアプローチで消費者を作成します。 1つはKafkaUtilsクラスを使用するReciever Based Approachであり、他はCreateDirectStreamメソッドを使用するDirect Approachです。どういうわけか、スパークストリーミングが失敗した場合でも、データの損失はなく、出発したデータのオフセットから始まります。

詳細については、http://spark.apache.org/docs/latest/streaming-kafka-integration.html

出典

2016-10-05 10:40:20

カフカの消費者からスパークストリーミング

答えて

関連する問題