はここに私のパンダのデータフレームを参照してくださいインデックスあいまいな時間:Pythonのパンダ
press222
datetime
2017-03-31 14:02:04 110.854683
2017-03-31 14:02:04 110.855759
2017-03-31 14:02:04 110.855103
2017-03-31 14:02:04 110.853790
2017-03-31 14:02:05 110.854034
2017-03-31 14:02:05 110.855103
2017-03-31 14:02:05 110.854683
2017-03-31 14:02:05 110.855698
2017-03-31 14:02:05 110.853851
2017-03-31 14:02:06 110.854385
2017-03-31 14:02:06 110.853905
2017-03-31 14:02:06 110.854988
2017-03-31 14:02:06 110.854988
2017-03-31 14:02:06 110.854988
あなたは、私が毎秒複数の値を持っていることがわかりますが、残念ながらタイムスタンプが全体秒である(ロガーミリ秒を吐き出すませんでした)それは何とかあいまいになります。 "同じ秒"に属する値の平均を得る方法はありますか?この例では、14:02:04の平均値、05の平均値、そして06の平均値はどれですか?
(実際のデータフレームは、もちろん手動でそれを行うには長すぎる...)
私はローリングはこのような意味で試してみました:
df.rolling('S').mean()
そして、私は別の値が、それでも同じ時間を取得列(=インデックス)。私は対応する平均値で1秒間に1つの行だけを保持したいと思います。 ご協力いただきありがとうございます - ありがとう!インデックスの
パーフェクト!ファイルから(read_csvを使って)データを読み込んでいる間にそれを行う方法はありますか?それは必須ではありませんが、知っておいて嬉しいです – Robert
チャンクを読み込んで各チャンクを圧縮することができますが、複数のチャンクにまたがっている場合は、上記のやり方をとることになります。これは実際にファイルサイズに依存しますが、私はアップデートを投稿します – EdChum
更新を見ると最初の読み込みを減らすのに役立ちますが、もう一度 'groupby'する必要があります – EdChum