1
明らかに、ディスクベースのシャッフル操作中に、/ tmpフォルダにdaskを書き込みます。私が使っているシステムでは、このフォルダは、いくつかの計算の後に、次のエラーの原因となって、非常に小さなパーティション(30ギガバイト)に搭載されている:daskが一時ファイルに使用するディレクトリを指定する方法はありますか?
IOError: [Errno 28] No space left on device
Traceback
File "[path_to_anaconda]/lib/python2.7/site-packages/dask/async.py", line 263, in execute_task
result = _execute_task(task, data)
File "[path_to_anaconda]/lib/python2.7/site-packages/dask/async.py", line 245, in _execute_task
return func(*args2)
File "[path_to_anaconda]/lib/python2.7/site-packages/dask/dataframe/shuffle.py", line 395, in shuffle_group_3
p.append(d, fsync=True)
File "[path_to_anaconda]/lib/python2.7/site-packages/partd/encode.py", line 25, in append
self.partd.append(data, **kwargs)
File "[path_to_anaconda]/lib/python2.7/site-packages/partd/file.py", line 41, in append
f.write(v)
どのように私はDASKは、シャッフルに使用するフォルダを指定することができますか?この問題を避けるために他に何ができますか?私は管理者特権を持っていないので、/ tmpを大きなものにマウントすることはオプションではありません。
これまでのところ、私は/ tmpフォルダが大きくなるのを見ただけでした。どの時点でファイルを削除しますか?
http://github.com/dask/dask/issues/newで問題を提起できますか? – MRocklin
https://github.com/dask/dask/issues/1659 –