1
非常に大きなcsvファイルのフォルダを読み込むためにDaskを使用しようとしています(メモリに収まるサイズですが、サイズは非常に大きいですが、ソリューションは次のようになります。Dask - 値に一致する行を検索しています
val = 'abc'
df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date'])
# 1 - df_pd = df.compute(get=dask.multiprocessing.get)
ddf_selected = df.map_partitions(lambda x: x[x['val_col'] == val])
# 2 - ddf_selected.compute(get=dask.multiprocessing.get)
1(そして次にパンダを使用していますか?何をすべきかの感覚を得ようとしていますか?