2017-10-16 11 views
0

私はちょうど2つの問題がありますDaskがCSVを読み込まないのはなぜですか?

Dask DataFrame Structure: 
       SOME_COL FOO   BAR 
npartitions=1     float64  float64  float64 
       ...   ...   ... 
Dask Name: describe, 1234 tasks 

を与える

import dask.dataframe as dd 
df = dd.read_csv("data.csv") 
print(df.describe()) 

を試してみました:私はこれが4ギガバイトCSVファイルであり、したがってそれとして何が行われていたとは思わない

  1. は、読むには少なくとも2秒かかるはずですが、すぐに印刷が行われます。
  2. 私は最小、25%、中央値、75%、最大を得ると予想しましたが、それらの記述値のどれも表示されません。

何が問題ですか?

答えて

1

デフォルトでは、Dask.dataframeは遅延しています。あなたは本当の答えをしたいときは.compute()に電話する必要があります。

print(df.describe().compute()) 
関連する問題