大規模な分析レポートを作成するためのHadoop/Spark

分散処理エンジンについては何も知らないので、私のニーズに合っているかどうかは分かりません。大規模な分析レポートを作成するためのHadoop/Spark

私は関係データベースに巨大なテーブルを持っており、ユーザーは毎日それを処理します（粗い操作と検索）。

今、新しい仕事があります。必要に応じて、1年から2年間、巨大な集計レポートを作成する可能性があります。そしてそれは速く行う。この2年間のすべてのテーブルレコードは大きすぎてメモリに収まらないので、計算を分割する必要があります。

私は車輪を再発明したくないので、私の質問は、は、このようなタスクのためのHadoopのような分散処理システムですか？

2016-03-31 silent-box

場合があります。非Hadoopの方法は、他の集約で使用できる半集約レポートを作成することです。私は毎日30の集計を使用して1つの月次集計を作成します。

場合によっては、データをあなたのスパーククラスターなどにプルして集計することができない場合があります。通常、リレーショナルデータベースはデータローカリティ機能を提供しないため、Cassandraやhbaseやelasticsearchなどのnosqlデータベースにデータを移動できます。また、大きな鍵となる質問は、答えがリアルタイムであることですか？ジョブサーバーなどのような努力を払わない限り、Hadoopジョブは通常バッチジョブです。

出典

2016-03-31 22:48:13 Manas

残念ながら、事前入力されたレポートでアプローチを使用する方法はありません。これは、ユーザー入力からのいくつかの集約パラメータがあり、いつでも新しいデータがあるためですレガシーシステムから移行することができます。いいえ、リアルタイムでは絶対に必要はなく、レポートは非同期で生成する必要があります。この場合、Hadoopの方法が最善の方法であることを意味しますか？ –

大規模な分析レポートを作成するためのHadoop/Spark

答えて

関連する問題