1

複数のオンプレミスデータベースの顧客データをクラウドに同期する必要があります。第2のステップでは、(異なるタイプの)重複を除去するために、そこにある顧客データが何らかのクリーンアップを必要とする。その清潔なデータに基づいて私はいくつかのデータ分析を行う必要があります。アーキテクチャのヒントが必要:クラウドへのデータ複製+データクレンジング

この目標を達成するために、私が使用できるオープンソースのフレームワークまたはクラウドソリューションを探しています。私はApache ApexとApache Kafkaについて調べましたが、これらが正しい解決策であるかどうかはわかりません。

このようなタスクに使用するフレームワークのヒントを教えていただけますか?

答えて

1

私はAPEXを素早く読んでから、早い段階で必要と思われるよりも多くの依存関係への結合の下にHadoopを必要としています。

カフカは、メッセージを送信するために使用されます(ストリームなどの他のAPIがあり、馴染みのないものを接続します)。

現在、Kafkaを使用してクライアントシステムからログファイルをリアルタイムでストリーミングしています。箱から出て、カフカは本当に火を与えて意味を忘れるだけです。私はそれをちょうど一回配送意味にするためにビットを追加しなければならなかった(Kafka 0.11.0はこれを解決すべきである)。

全体的に、KAFKAはキューを持つ論理メッセージドメインを持つより低レベルのソリューションであり、私がAPEXを覗き込んだものはより重くパッケージ化されたライブラリであり、もっと探求すべきものがたくさんあると考えてください。

カフカは消費者APIを使用して、選択した分析システムを切り替えることができます。

1

質問は非常に一般的ですが、いくつかのシナリオを概説していきます。ここには多くのパラメータがあります。そのうち1つはコストで、クラウド上ではすぐに構築できます。もちろん、データのサイズも重要です。

これらはあなたが考慮すべきいくつかのことです:ストリーミング対

  1. バッチ:アップデートが流れ続けるか、またはプロセスが/定期的にオンデマンドで実行される(後者ではなく前者の音)
  2. 待ち時間はどのくらいですか?つまり、システムを伝播するために更新が必要な最大時間は何ですか?この質問への回答は質問に影響します1)
  3. どのくらいのデータについて話していますか? GbyteのサイズがTbyteかPbyteかどうかを確認します。さまざまなツールの「最高高度」が異なる
  4. どのような形式ですか?あなたはテキストファイルを持っていますか、またはリレーショナルDBから引っ張っていますか?
  5. プレーンSQLでは、クリーニングと除外が難しい場合があります。その部分を行うために使用する言語/ツールは何ですか?質問3)によると、データサイズは、通常、キー値ストアで一定時間内に行われるIDによる結合が必要ですが、ほとんどの他のデータシステム(スパーク、ハープ、など)

あなたはこの疑問をすべて熟知していますが、わからない場合は、弾力的なソリューションでクラウドを始めることをお勧めします。すぐに高価になるかもしれない雲の上に。

すぐに起動できるクラウドソリューションは、アマゾンアテナ(https://aws.amazon.com/athena/)です。S3でデータをダンプすることができます。ここではAthenaが読んでおり、クエリごとに料金を支払うだけなので、使用していないときには支払いをしません。これはApache Prestoに基づいているので、基本的にSQLを使ってシステム全体を書くことができます。

それ以外の場合は、Elive Mapreduce with Hive(http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive.html)を使用できます。またはスパーク(http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark.html)。それはあなたが最も快適な言語/技術に依存します。また、Google(BigDataなど)やMicrosoft(Azure)と同様の製品があります。

0

はい、Apache Apexを使用することができます。 Apache Apexは、Apache Malharでサポートされています。これは、JDBC入力演算子を使用してデータをロードし、クラウドストレージに格納する(S3の可能性があります)か、すべてのシンクに格納する前に重複排除を行うことができます。また、この種の操作のためにDedup演算子もサポートしています。しかし、前回の返答で触れたように、Apexは機能するためには下にHadoopが必要です。

関連する問題