これは私の初めてのパンダの試みです。私は合理的なユースケースがあると思うが、私はつまずく。タブ区切りのファイルをPandas Dataframeに読み込んで、それをSymbolでグループ化し、TimeStamp列でインデックスされたx.axisでプロットしたいと思います。パンダDataFrame - 目的のインデックスに重複する値があります
Symbol,Price,M1,M2,Volume,TimeStamp
TBET,2.19,3,8.05,1124179,9:59:14 AM
FUEL,3.949,9,1.15,109674,9:59:11 AM
SUNH,4.37,6,0.09,24394,9:59:09 AM
FUEL,3.9099,8,1.11,105265,9:59:09 AM
TBET,2.18,2,8.03,1121629,9:59:05 AM
ORBC,3.4,2,0.22,10509,9:59:02 AM
FUEL,3.8599,7,1.07,102116,9:58:47 AM
FUEL,3.8544,6,1.05,100116,9:58:40 AM
GBR,3.83,4,0.46,64251,9:58:24 AM
GBR,3.8,3,0.45,63211,9:58:20 AM
XRA,3.6167,3,0.12,42310,9:58:08 AM
GBR,3.75,2,0.34,47521,9:57:52 AM
MPET,1.42,3,0.26,44600,9:57:52 AM
タイムスタンプ列については、次の2つの点に注意してください。
- それが重複する値を有し、
- 間隔が不規則です。
私は
from pandas import *
import pylab as plt
df = read_csv('data.txt',index_col=5)
df.sort(ascending=False)
df.plot()
plt.show()
...私はこのような何かができると思った。しかしread_csv方法は、「インデックスとして試み列1-Xが、重複を発見した」例外が発生します。重複する値を持つインデックス列を指定できるオプションはありますか?
私は不規則なタイムスタンプ間隔を1秒の解像度に合わせることにも興味がありますが、複数のイベントを所定の秒間プロットしたいと思いますが、ユニークなインデックスを導入して価格を調整できますか?私は私が持っている素敵なことだと思ういくつかの機能/利便性に対処するために今、いくつかの問題を作成した
ありがとうございます。私はpystatsmodelsに参加します - もしあなたがユースケースを持つつまらないノブを探しているなら、私は肥沃な領域になる可能性があります。 – kavu
生の時間で、おそらくサンプリングレートで整数だけを意味する場合、ここではupvoteです。科学記録の全世界は、その方向でTimeSeriesへの拡張のために絶望的です... – meteore