CSVからデータをロードすると、一部のCSVをロードできないため、空のパーティションになります。空のパーティションをすべて削除したいのですが、いくつかの方法は空のパーティションではうまく動作しないようです。私は再分割を試みました。例えば、repartition(npartitions=10)
が動作しますが、これ以上の値を指定すると空のパーティションが残る可能性があります。Daskで空のパーティションを削除します。
これを達成する最良の方法は何ですか?ありがとう。
CSVからデータをロードすると、一部のCSVをロードできないため、空のパーティションになります。空のパーティションをすべて削除したいのですが、いくつかの方法は空のパーティションではうまく動作しないようです。私は再分割を試みました。例えば、repartition(npartitions=10)
が動作しますが、これ以上の値を指定すると空のパーティションが残る可能性があります。Daskで空のパーティションを削除します。
これを達成する最良の方法は何ですか?ありがとう。
これを行う簡単なAPIはありません。どのパーティションが空であるかを確認するためにdf.map_partitions(len)
と呼ぶことができ、おそらくdf.to_delayed()
とdask.dataframe.from_delayed(...)
を使って明示的に削除することができます。
将来的には、空のパーティションでうまく動作しない関数が見つかった場合に問題を提起したいと思うなら、大いに感謝します。 https://github.com/dask/dask/issues/new
ありがとうございます - https://github.com/dask/dask/issues/3004 – Ian
空のパーティションでうまく動作しない機能が発生したときに問題を発生させるように頼むことができますか? – MRocklin