2016-06-27 6 views
1

サイズが18 MBのcsvファイル(数値データのみ)があります。私はそれを読んでnumpy配列に変換し、hdf5形式またはpickleで保存すると、約48 MBのディスク容量が必要です。 pickleやhdf5を使用するときにデータを圧縮するべきではありませんか?テンソルフローによって消費されるhdf5形式で保存する方が良いですか? CSVデータは、データのHdf5とpickleはraw csvファイルよりも多くの容量を必要とします

2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,2,6,204,27,97 
2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,2,6,204,27,78 
2,3,66,184,2037,43312,0,0,9,2,0,1,8745,1,0,1,6,204,27,58 

寸法は、Int64のDTYPEの整数デフォルトのためのX 20

+0

したがって、HDF5とpickleはどちらも約48MBのディスク領域を占有しますか?データセットの次元とタイプは何ですか?また、役に立つかもしれないCSVのいくつかの行を投稿することができます。 –

+0

寸法は310584×20 – Himaprasoon

答えて

0

numpyのアレイ310584である形態です。これは、データがオリジナルよりも多くのスペースを取っていた理由です。

310584 X 20 x 8 ~= 48 MB (8 Bytes is the size for int64) 
関連する問題