dask/pandasカテゴリ変換の違い

私は大部分のカテゴリデータのメモリcsvファイルよりも大きく管理しています。最初は大きなCSVファイルを作成し、Pandas read_csvで読み込み、カテゴリに変換してhdf5に保存しました。一度カテゴリ形式になると、メモリにうまく収まります。dask/pandasカテゴリ変換の違い

ファイルが大きくなり、Daskに移動しました。しかし、同じプロセス。

しかし空のフィールドでは、pandasはnp.nanを使用しているようで、カテゴリはcat.categoriesリストには含まれていません。

Daskでは、空の値はNaNで埋められ、別のカテゴリとして含まれ、HDFに保存されると、将来の互換性に関する警告が表示されます。

これはバグですか？それとも手順がありませんか？パンダとdaskの行動は違うようです。

おかげ

2016-10-10 Julian C

を参照してください。0.11.1

のver DASKで解決されます

2016-10-13 17:57:29

答えて