複数のオンプレミスデータベースの顧客データをクラウドに同期する必要があります。第2のステップでは、(異なるタイプの)重複を除去するために、そこにある顧客データが何らかのクリーンアップを必要とする。その清潔なデータに基づいて私はいくつかのデータ分析を行う必要があります。アーキテクチャのヒントが必要:クラウドへのデータ複製+データクレンジング
この目標を達成するために、私が使用できるオープンソースのフレームワークまたはクラウドソリューションを探しています。私はApache ApexとApache Kafkaについて調べましたが、これらが正しい解決策であるかどうかはわかりません。
このようなタスクに使用するフレームワークのヒントを教えていただけますか?