2016-03-31 9 views
0

分散処理エンジンについては何も知らないので、私のニーズに合っているかどうかは分かりません。大規模な分析レポートを作成するためのHadoop/Spark

私は関係データベースに巨大なテーブルを持っており、ユーザーは毎日それを処理します(粗い操作と検索)。

今、新しい仕事があります。必要に応じて、1年から2年間、巨大な集計レポートを作成する可能性があります。そしてそれは速く行う。 この2年間のすべてのテーブルレコードは大きすぎてメモリに収まらないので、計算を分割する必要があります。

私は車輪を再発明したくないので、私の質問は、 は、このようなタスクのためのHadoopのような分散処理システムですか?

答えて

0

場合があります。 非Hadoopの方法は、他の集約で使用できる半集約レポートを作成することです。 私は毎日30の集計を使用して1つの月次集計を作成します。

場合によっては、データをあなたのスパーククラスターなどにプルして集計することができない場合があります。 通常、リレーショナルデータベースはデータローカリティ機能を提供しないため、Cassandraやhbaseやelasticsearchなどのnosqlデータベースにデータを移動できます。 また、大きな鍵となる質問は、答えがリアルタイムであることですか?ジョブサーバーなどのような努力を払わない限り、Hadoopジョブは通常バッチジョブです。

+0

残念ながら、事前入力されたレポートでアプローチを使用する方法はありません。これは、ユーザー入力からのいくつかの集約パラメータがあり、いつでも新しいデータがあるためですレガシーシステムから移行することができます。 いいえ、リアルタイムでは絶対に必要はなく、レポートは非​​同期で生成する必要があります。この場合、Hadoopの方法が最善の方法であることを意味しますか? –

関連する問題