3

私はカフカと仕事をする必要があるかもしれません。私はそれを絶対に新しくしています。私は、カフカのトピックでログを取得するカフカのプロデューサーがいることを理解しています。カフカの消費者からスパークストリーミング

私は消費者からKafkaトピックから読むことに取り組む必要があります。コンシューマーAPIを設定してから、SparkStreaming Context(PySpark)を使用してストリーミングするか、KafkaUtilsモジュールを直接使用してkafkaトピックを読むことができますか?

私はKafkaコンシューマアプリケーションをセットアップする必要がある場合、どうすればよいですか?右のドキュメントへのリンクを共有できますか?

ありがとうございました!

答えて

2

スパークはカスタムコンシューマーを作成する必要がない内部カフカストリームを提供します。カフカ1と受信機2の直接アプローチで接続する2つのアプローチがあります。 詳細については、このリンクを参照してくださいhttp://spark.apache.org/docs/latest/streaming-kafka-integration.html

+0

これはPythonをサポートしていない場所です。あなたはKafkaからストリームを読み込もうとしましたが、そこからログを少しでも消費するコードスニペットを共有できますか? –

+0

ああ、それはpysparkでサポートされないので、カスタムストリームを作成することができますhttp://spark.apache.org/docs/latest/streaming-custom-receivers.html –

1

kafkaコンシューマアプリケーションを設定する必要はありません、スパーク自体は2つのアプローチで消費者を作成します。 1つはKafkaUtilsクラスを使用するReciever Based Approachであり、他はCreateDirectStreamメソッドを使用するDirect Approachです。 どういうわけか、スパークストリーミングが失敗した場合でも、データの損失はなく、出発したデータのオフセットから始まります。

詳細については、http://spark.apache.org/docs/latest/streaming-kafka-integration.html

関連する問題