分散処理エンジンについては何も知らないので、私のニーズに合っているかどうかは分かりません。大規模な分析レポートを作成するためのHadoop/Spark
私は関係データベースに巨大なテーブルを持っており、ユーザーは毎日それを処理します(粗い操作と検索)。
今、新しい仕事があります。必要に応じて、1年から2年間、巨大な集計レポートを作成する可能性があります。そしてそれは速く行う。 この2年間のすべてのテーブルレコードは大きすぎてメモリに収まらないので、計算を分割する必要があります。
私は車輪を再発明したくないので、私の質問は、 は、このようなタスクのためのHadoopのような分散処理システムですか?
残念ながら、事前入力されたレポートでアプローチを使用する方法はありません。これは、ユーザー入力からのいくつかの集約パラメータがあり、いつでも新しいデータがあるためですレガシーシステムから移行することができます。 いいえ、リアルタイムでは絶対に必要はなく、レポートは非同期で生成する必要があります。この場合、Hadoopの方法が最善の方法であることを意味しますか? –