私のシステムは、毎日異なるサイトから300Mのヒットを収集します。 すべてに時間、ユーザーID、タイプ(広告または通常)、httpアドレス、サイトIDがあります。高速Web解析(大規模データアレイ)のためのDB、OLAPソリューションの選択
性別、年齢層や国を持っているユーザー〜200Mの配列は、もあります。ヒットによるデータに基づいてシステムを設計するために必要な
は異なるユーザーグループのヒット曲のリアルタイムレポートを与えることができます。
:-) OLAPソリューションのように例えば、構築するために、15〜25歳、英国から、10月から9月まで女の子のためのヒットで2011年
あなたが選択することをお勧めデータベース、その溶液をグラフにプロットしますOLAPキューブ?
私はHBaseの(+ zohmgまたはカスケード)Hypertableまたは何か他のもの(無料DWHの:-))と同様に、オープンソースのソリューションを探しています。データの膨大な量だ
私は言及を忘れていました:データを事前集計する際に考えられる問題は、ユーザーの情報が変更される可能性があることです。たとえば、ユーザーが別の国に移住した場合でも、以前に行った事前集計のために、以前の国でカウントされます。これは、ビジネスルールに応じて望ましい場合もあれば、そうでない場合もあります。 – ajduff574
また、クエリごとに*ユニーク*ユーザー数(合計ヒット数ではなく)が必要な場合、この事前集計は機能しません。 – ajduff574