a = dd.read_csv('huge.csv', blocksize=1e6)
g = a.groupby(['col_a', 'col_b'])
g.col_c.sum().max().compute() # failed, MemoryError
私はdask.dataframe
がメモリの問題で失敗しないと思いましたが、何ですか? はところで、私が思うblocksize
事項については、私は非常に小さいサイズを設定した場合、1E3を言う、read_csv
はデフォルトで....大きなファイルにデータフレームメモリの問題があります