アプリケーションから生成されたデータ(Eコマース注文の更新、配信、キャンセル、新規注文など)を保存するMongoDBコレクションがいくつかあります。現在、従来のETL (s3 /ステージング負荷のファイルに隠す)とDWへのロードを計画するアプローチ。データ量が増加しているので、リアルタイムストリーミング/類似と比較してレポートを生成するのに少なくとも1日遅れているため、効率が悪いように感じる一種の新しいETLアプローチです。ストリーミングオプションとして、まずApache Kafkaについてよく読んでいます。しかし、このMongo DBコレクションをKafkaのトピックに変換する方法が最大の課題です。 私はこれを読むMongoDb Streaming Out Inserted Data in Real-time (or near real-time)。キャップ付きコレクションを使用していないため、推奨されるソリューションはうまくいきません。Mongo DBからDatawarehouseへのリアルタイムストリーミングデータ
MongoDBコレクションはカフカのプロデューサーですか? MongoDBリアルタイム/ニアリアルタイムからKafka以外のTarget DB/s3にデータを引き出す良い方法はありますか? 注:Java/Scalaよりも現在のワークフローに簡単に統合できるPythonソリューションが好ましいです。
おかげ