1
私は大部分のカテゴリデータのメモリcsvファイルよりも大きく管理しています。最初は大きなCSVファイルを作成し、Pandas read_csvで読み込み、カテゴリに変換してhdf5に保存しました。一度カテゴリ形式になると、メモリにうまく収まります。dask/pandasカテゴリ変換の違い
ファイルが大きくなり、Daskに移動しました。しかし、同じプロセス。
しかし空のフィールドでは、pandasはnp.nanを使用しているようで、カテゴリはcat.categoriesリストには含まれていません。
Daskでは、空の値はNaNで埋められ、別のカテゴリとして含まれ、HDFに保存されると、将来の互換性に関する警告が表示されます。
これはバグですか?それとも手順がありませんか?パンダとdaskの行動は違うようです。
おかげ
JC