Daskでループを実装する際に問題が発生しています。 は、例えば、次のコードで:DASKループ内のデータフレーム
for i in range(len(col)):
if df[col[i]].dtype=='object':
pass
elif df[col[i]].std().compute()==0:
cols_constant.append(col[i])
df = df.drop(cols_constant,axis=1)
同じコードは、パンダを使用して非常に高速ですが、DASKにタスクを完了するために、かなりの時間を取っています。
私はDaskがループ上では効率が悪いと理解しています。 しかし、上記のような関数のDaskのコードを最適化するにはどうすればよいですか?
複数のワーカーシステムで計算を行う予定であるため、e.persist()を使用することはできません。
同じタスクを並列化するために 'dask.do'関数を使用すると便利でしょうか?