パンダはまだduplicate time series indexes(https://github.com/pydata/pandas/issues/643)を許可していませんが、すぐに追加されます。私は、複数のインデックスのタグ/列によって重複時間を持つデータセットにローリングウィンドウ手段を適用する良い方法があるのだろうかと思っています。タグ1、タグ2)、および所要時間。小さなサンプル:パンダは重複した時系列データのメジアンを返す
epochTimeMS,event,tag,timeTakenMS
1331782842801,event1,tag1,16
1331782841535,event1,tag2,1278
1331782842801,event1,tag1,17
1331782842381,event2,tag1,436
私がしたいことは、イベントとイベント+タグによって、さまざまなmsウィンドウでビルドとグラフの平均化を行うことです。これはパンダで成し遂げられるべきだが、時系列の重複インデックスが最初になるまで待つ必要があるかどうかはわからない。この場所でこれをハッキングすると思っていますか?
verify_integrityの説明をありがとうございました 私のデータ分析の名前は、私には負担してください。私は正しく理解していますが、現在のウィンドウの時系列データを移動する最小の細分性は1日ですか? 2番目のレベルのデータがある場合、30秒分のデータをタグごとに平均化して平均化することはできません。 http://groups.google.com/group/pystatsmodelsにユースケースを投稿してください。 – Aaron
移動ウィンドウ関数は配列関数であり、固定数のウィンドウサイズを持つ。 30の値。したがって、30秒間のウィンドウの概念は意味をなさない(まだ)。秒間の値がない場合は、 'asfreq'(pandas.core.datetoolsを参照)を使用して2回目のルールにデータを再調整し、' rolling_mean'を 'window = 30'で使用することができます –