私は火花ストリーミングを使用してカフカからデータを読み込んでいました。しかし、私たちの組織はApache FlinkまたはKafkaのコンシューマーを使用してApache kafkaのデータを標準プロセスとして読み込んでいます。ですから、KafkaストリーミングをKafkaのコンシューマーやApache Flinkと置き換える必要があります。私のアプリケーションのユースケースでは、kafkaからデータを読み込み、jsonデータをフィルタリングし、cassandraにフィールドを入れる必要があるので、Kafkaで処理する必要はないので、Flink /その他のストリームではなくKafkaのコンシューマを使用することをお勧めしますjsonデータ。だから私は、質問の下に理解するためにあなたの助けが必要:カフカコンシューマ対Apache Flink
たちは、スパークストリーミングやFLINKの場合にそうであるように、私は読んで同じ連続的なデータを得ることができ、カフカの消費者を使用していますか?
私はkafkaからデータを読み込み、avro scehmaを使用して逆シリアル化し、フィールドをフィルタリングしてcassandraに入れる必要があると考えると、kafkaの消費者は十分ですか?
カフカコンシューマアプリケーションは、カフカコンシューマAPIを使用して作成することができます。
Apache flinkの代わりにKafkaのコンシューマを使用しているのであれば、私の場合は何か問題はありますか?
また、KafkaのStreams APIの使用を検討する必要があります。これはKafkaのコンシューマーAPIよりもはるかに強力です。 https://kafka.apache.org/0102/documentation/streamsおよびhttp://docs.confluent.io/current/streams/ –
アプリケーションをどのように展開する予定ですか?あなたの組織に「もの」を展開するためのシステムが既に存在しますか? システムの長期計画は何ですか?あなたはCassandraへの摂取のためだけにそれを使用するつもりですか、またはストリーム内のデータに対して何らかの計算を実行する予定がありますか? –
@rmetzger:コンシューマAPIジョブを実行できる独立したクラスタに配置することを計画しています。私たちは物事を展開するための既存のシステムを持っていない、それは新しい環境です。アイデアは、カフカからデータを読み込み、avroを使ってjsonに変換し、必要なフィールドをフィルタリングし、cassandraに格納します。計算はしません。あなたの提案は参考になります。 –