私は保存したいデータフレームを持っており、後で効率的にアクセスします。さまざまなフォーラムから、私はto_pickleメソッドを使うべきであることを知りました。しかし、私の驚いたことに、これはさらにサイズを増加させます。to_pickleメソッドはファイルサイズを増加させます
df.to_csv('df.csv', sep='\t', mode="wb") ## 650 MB output file
df.to_pickle('df.pkl') ## 1.3 GB output file
何か間違っていますか?
編集: コメントから、to_pickleは小さいファイルを作成するためのものではないようです。その場合、それを保存する最も良い方法は何ですか?ほとんどの列が1と0だけの数値データです。ほとんどがまばらです。
ピクリングは、シリアル化のためのものであり、圧縮のためのものではありません。 csvファイルを拾い読みするのは余計なことです。 – Cubic
HDFStoreでhdf5として保存しようとしましたか? – manu190466
必要に応じて圧縮を使用してcsvに書き込むことができます。ピクリングはPythonオブジェクトの文字列表現です – EdChum