2016-11-29 10 views
2

私は値が異なるcsvに格納されている時系列を持っています。 各csvはソートされ、時間スキャンである変数秒を含みます。ds csv読み込み順序

df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') 
df.head() 

      seconds    IP  subnet 
    0 1477252800 Private-10.0.0.0 10.101.15.6 
    1 1477252800 Private-10.0.0.0 10.102.223.2 
    2 1477252800 Private-10.0.0.0 10.104.15.43 
    3 1477252800 Private-10.0.0.0 10.104.5.241 
    4 1477252800 Private-10.0.0.0 10.106.15.26 

は、今私は、CSVファイルを変数secondsに応じて順番に読まれるべきであることを設定することができますか?

答えて

1

デフォルトでは、dask.dataframe.read_csvはファイルをアルファベット順に読み取ります。したがって、ファイル名が2016-05-06.csvのような標準命名方式に従う場合は、OKにしてください。

希望する場合は、dask.delayedでカスタマイズできます。以下は同様のexample notebookです。

最後に、いつでもdf = df.set_index('seconds')に電話することができますが、これは選択肢よりもはるかに遅く、データのフルスキャンが必要です。

関連する問題