2016-11-16 5 views
0

私たちのハッカースペースでは、時系列データを出力するいくつかの環境センサーとイベントトラッカー(#接続デバイス、加熱、バートランザクションなど)があります。一定間隔。現在のプラットフォームの出力は、unix timestamp + value/eventで構成されています。これらがポーリングされる間隔は、プローブごとに異なります。 (ボケ味を使用して)可視化をストリーミング任意のtimeseriesデータの収集と分析(データストリームマイニング)

目標は

  1. のために1セットでこのデータを収集することで、効率的なストレージ(scikitを使用して)
  2. オンライン分析
  3. は、実値の両方を処理し、離散的な数値データを統合して表します。
  4. (好ましくはPythonを使用しますが、これは必須ではありません)

上記の目標を達成するための優れた実践的アプローチは何ですか?この機能を提供する既存のライブラリはありますか?

電流(不完全)計画:

  • は、時系列オブジェクトを統合し、numpyのアレイ又はパンダ時系列データフレームでそれらを統合します。
  • 最小の利用可能な時間間隔でx軸を更新し、より大きな間隔を持つセンサーのNaNに欠けているデータポイントを設定します。
  • NaNの値は後で補間/畳み込みすることができます。

しかし、これはNaN値の大部分を持つデータセットとなり、それ自体の統計的問題やストレージに関する問題が発生します。もう1つの選択肢は、中央値の間隔を事前に決定し、いくつかのデータを失うことを記憶することである。

答えて

0

時系列データベースは、さらに検索した後に正解であることが示されています。 OpenTSDBを使用する予定です。利用可能なtimeseriesデータベースの中で最も発展しているようです。

これは、データベース管理システムに組み込まれているので、記憶域および間隔の問合せの問題を解決します。それはBokehの視覚化の問題です。

関連する問題