私たちのハッカースペースでは、時系列データを出力するいくつかの環境センサーとイベントトラッカー(#接続デバイス、加熱、バートランザクションなど)があります。一定間隔。現在のプラットフォームの出力は、unix timestamp + value/eventで構成されています。これらがポーリングされる間隔は、プローブごとに異なります。 (ボケ味を使用して)可視化をストリーミング任意のtimeseriesデータの収集と分析(データストリームマイニング)
目標は
- のために1セットでこのデータを収集することで、効率的なストレージ(scikitを使用して)
- オンライン分析
- は、実値の両方を処理し、離散的な数値データを統合して表します。
- (好ましくはPythonを使用しますが、これは必須ではありません)
上記の目標を達成するための優れた実践的アプローチは何ですか?この機能を提供する既存のライブラリはありますか?
電流(不完全)計画:
- は、時系列オブジェクトを統合し、numpyのアレイ又はパンダ時系列データフレームでそれらを統合します。
- 最小の利用可能な時間間隔でx軸を更新し、より大きな間隔を持つセンサーのNaNに欠けているデータポイントを設定します。
- NaNの値は後で補間/畳み込みすることができます。
しかし、これはNaN値の大部分を持つデータセットとなり、それ自体の統計的問題やストレージに関する問題が発生します。もう1つの選択肢は、中央値の間隔を事前に決定し、いくつかのデータを失うことを記憶することである。