0

私は火花ストリーミングを使用してカフカからデータを読み込んでいました。しかし、私たちの組織はApache FlinkまたはKafkaのコンシューマーを使用してApache kafkaのデータを標準プロセスとして読み込んでいます。ですから、KafkaストリーミングをKafkaのコンシューマーやApache Flinkと置き換える必要があります。私のアプリケーションのユースケースでは、kafkaからデータを読み込み、jsonデータをフィルタリングし、cassandraにフィールドを入れる必要があるので、Kafkaで処理する必要はないので、Flink /その他のストリームではなくKafkaのコンシューマを使用することをお勧めしますjsonデータ。だから私は、質問の下に理解するためにあなたの助けが必要:カフカコンシューマ対Apache Flink

  1. たちは、スパークストリーミングやFLINKの場合にそうであるように、私は読んで同じ連続的なデータを得ることができ、カフカの消費者を使用していますか?

  2. 私はkafkaからデータを読み込み、avro scehmaを使用して逆シリアル化し、フィールドをフィルタリングしてcassandraに入れる必要があると考えると、kafkaの消費者は十分ですか?

  3. カフカコンシューマアプリケーションは、カフカコンシューマAPIを使用して作成することができます。

  4. Apache flinkの代わりにKafkaのコンシューマを使用しているのであれば、私の場合は何か問題はありますか?

+0

また、KafkaのStreams APIの使用を検討する必要があります。これはKafkaのコンシューマーAPIよりもはるかに強力です。 https://kafka.apache.org/0102/documentation/streamsおよびhttp://docs.confluent.io/current/streams/ –

+0

アプリケーションをどのように展開する予定ですか?あなたの組織に「もの」を展開するためのシステムが既に存在しますか? システムの長期計画は何ですか?あなたはCassandraへの摂取のためだけにそれを使用するつもりですか、またはストリーム内のデータに対して何らかの計算を実行する予定がありますか? –

+0

@rmetzger:コンシューマAPIジョブを実行できる独立したクラスタに配置することを計画しています。私たちは物事を展開するための既存のシステムを持っていない、それは新しい環境です。アイデアは、カフカからデータを読み込み、avroを使ってjsonに変換し、必要なフィールドをフィルタリングし、cassandraに格納します。計算はしません。あなたの提案は参考になります。 –

答えて

1

まず、のはFlinka Kafak Connectorを見てみましょう、そしてSpark Streaming with Kafka、それらの両方の仕事のためにApacheカフカからのメッセージを消費するために内部Kakfa消費者のAPI(シンプルなAPIや高レベルAPIのいずれか)を使用します。

だから、あなたの質問にについて:

1)はい

2)はい。あなたはスパークを使用している場合Howeer、あなたは、私たちは右

4)上記のように、FLINKもそのジョブにカフカの消費者を使用しています)を効率よくCassandaraに

3のデータを保存しているのに役立ちます、Spark Cassandra connectorを使用することを検討することができます。さらに、それは分散ストリームとバッチデータ処理であり、カフカからの消費後にデータを効率的に処理するのに役立ちます。あなたのケースでは、データをCassandraに保存するには、yourselveでコーディングするのではなく、Flink Cassandra Connectorを使用することを検討できます。

+0

ありがとう! KafkaのコンシューマAPIを使用してKafkaからデータを読み込む場合に備えて、Cassandraにデータを格納するためのAPIは組み込まれていないようですか?あなたは確認していただけますか? –

+0

Confluent.ioのKafka-Cassandraコネクタは、https://www.confluent.io/blog/kafka-connect-cassandra-sink-the-perfect-match/、またはコミュニティ:https:// githubから利用できます。 com/tuplejump/kafka-connect-cassandra – NangSaigon

関連する問題