私は、時系列のインデックス作成に使用されるベストブライドデータ構造についての意見を仲間のSOに質問したいと思います(別名列データ、別名フラットリニア)。極端に長い時系列のベストオブブライドインデックスデータ構造
時系列の2つの基本タイプがサンプリング/離散特性に基づいて存在する:
レギュラー離散化(各サンプルは、共通の周波数で撮影されている)
不規則な離散化(試料を採取します必要になりますarbitaryの時点で)
クエリ:
時間範囲内のすべての値[T0、T1]
時間で
V0よりも小さい/大きい時間範囲内のすべての値[T0、T1]のすべての値値の範囲内にある範囲[T0、T1] [V0、V1]
データセットは、(ソートの不規則な離散乗り越え)要約時系列から成り、および多変量の時系列。問題のデータセットは約15-20TBの大きさなので、処理は分散して実行されます。前述のクエリの中には、1つのシステムで使用可能な物理メモリの量より大きなデータセットが存在するためです。
分散処理とは、必要なデータ固有の計算を時系列問合せと一緒にディスパッチすることで、可能な限りデータに近い計算ができるようにすることです。 map/reduceパラダイムに似ています) - 計算とデータの距離が近いことは非常に重要です。
索引で対処できるもう1つの問題は、圧倒的多数のデータが静的/歴史的(99.999 ...%)であることです。ただし、毎日新しいデータが追加され、「フィールド・セネクター」または「市場データ」と呼ばれます。アイデア/要件は、可能な限り低いレイテンシで実行中の計算(平均、garchなど)を更新できるようにすることです。これらの実行中の計算の一部は履歴データを必要とし、そのうちのいくつかは合理的にキャッシュできるもの以上になります。
私はすでにHDF5と考えていますが、より小さなデータセットでは効率的に動作しますが、データセットが大きくなるにつれてドラッグを開始します。フロントエンドからのネイティブ並列処理機能もありません。
さらに、提案、リンク探しなど(CまたはC++のソリューション、ライブラリ)
タイプ1〜3のクエリは、「直交範囲レポート」と呼ばれることがよくあります。 – oldboy
http://dba.stackexchange.com/questions/16583/using-an-rdbms-for-querying-tenth-of-terabytes-of-time-series-data –
@Martin:ありがとうございますが、すべてが爪のように見えるということだけがハンマーを持っているということです。高度にdb/dba指向のQ/Aサイトでこのような質問をすると、わずかな偏りで答えが出ます。 –