gzで圧縮された.csvファイルをdaskデータフレームに読み込む方法はありますか?dask Dataframeで圧縮された(gz)CSVファイルを読み取るには?
私は
import dask.dataframe as dd
df = dd.read_csv("Data.gz")
と直接それを試みたが、(おそらく、それは圧縮されたバイトを解釈しているため)Unicodeのエラーが出ますがあり"compression"
パラメータであるが、compression = "gz"
が動作しません、私は見つけることができませんしましたこれまでの文書。
パンダでは、私のメモリを壊してしまう以外の問題なしに直接ファイルを読むことができます;-)しかし、行数を制限するとうまく動作します。
import pandas.Dataframe as pd
df = pd.read_csv("Data.gz", ncols=100)
まあ、通常のパンダ(非DASK)を読み込み、任意のエンコーディングを設定せずに結構です、私の推測では、DASKは、ASCIIファイルとして直接圧縮GZファイルを読み取ろうとしていることになりますので、ノンセンスになります。 – Magellan88