私たちは、apache kafkaを使用してリアルタイム監視システムを構築する予定です。全体的な考え方は、複数のデータソースからカフカにデータをプッシュし、データ品質チェックを実行することです。このアーキテクチャにはほとんど疑問がありませんKafkaを使用した複数のデータソースによるリアルタイムストリーミング
- 主にJavaアプリケーション、Oracleデータベース、残りのAPI、ログファイルをApache kafkaに含む複数のソースからのデータをストリーミングする最良の方法はありますか?各クライアントの展開には、それぞれのデータソースが含まれています。したがって、カフカにデータをプッシュするデータソースの数は、顧客の数* xと等しくなります。ここで、xは、リストしたデータソースの種類です。理想的には、プッシュアプローチではなく、プッシュアプローチがベストに適しています。プルアプローチでは、ターゲットシステムは、実用的ではない様々なソースシステムの資格情報で構成する必要があります。
- どのように障害を処理しますか?
- 受信メッセージのデータ品質チェックを行うにはどうすればよいですか?例えば、特定のメッセージに必要な属性がすべて含まれていない場合は、メッセージを破棄して、メンテナンスチームがチェックするようアラートを生成することができます。
あなたのエキスパート入力をお知らせください。ありがとう!
私はカフカのコネクタがあろうとアプローチを接続しますが、与えられたベースプルの利点に同意しますクライアント数に応じて複数のソースから取得する必要があります。コネクターでのソース証明書の設定、クライアントの頻繁な追加や削除など、どのように対処しますか?ソースプラットフォームの管理は難しいようです。どのようにこれを効率的に処理するのですか? –