私たちは、大量のデータ、最大150万回のタイムスタンプ付きレコード、約24MB、1秒あたり約2TBを作成するシステムを持っています。タイムスタンプの付いたデータを格納するプラットフォーム
データは複数のソースから提供され、複数のフォーマットを持ちますが、1つの共通点はタイムスタンプです。
現在、約5日間のデータをファイルに保存し、レポートを生成する社内ソフトウェアを用意しています。
私たちは、何年ものデータを保持して照会できるスケーラブルなシステムを構築しようとしています。
Nathan MarzがHow to beat the CAP theoremで説明したように、Hadoop/ElephantDBを長期バッチストレージに、Storm/Cassandraをリアルタイムレイヤーに使用しています。
コミュニティが他の選択肢を指摘したり、さらに読んだりすることができますか?
私たちのデータが主に時間によって整理されているという事実は、特定のタイプのソリューションに役立っていますか?
このような質問をするよりよいフォーラムはありますか?
おかげ
集約/バッチレポートを実行する必要がありますか、何らかのリアルタイムアクセスが必要ですか。もしそうなら、アクセスパターンの例を挙げてください。 –
集約/バッチレポートとリアルタイムアクセスの両方が必要です。通常、ユーザーは時間ベースのレポートを要求します。時刻t1〜t2におけるこのアイテム(またはこれらのアイテム)の値とは何ですか?特定の項目の値が範囲外であった回数。 – wsh8z
1つのレポートに集計するデータのサイズは? –