2016-10-10 9 views
1

私は大部分のカテゴリデータのメモリcsvファイルよりも大きく管理しています。最初は大きなCSVファイルを作成し、Pandas read_csvで読み込み、カテゴリに変換してhdf5に保存しました。一度カテゴリ形式になると、メモリにうまく収まります。dask/pandasカテゴリ変換の違い

ファイルが大きくなり、Daskに移動しました。しかし、同じプロセス。

しかし空のフィールドでは、pandasはnp.nanを使用しているようで、カテゴリはcat.categoriesリストには含まれていません。

Daskでは、空の値はNaNで埋められ、別のカテゴリとして含まれ、HDFに保存されると、将来の互換性に関する警告が表示されます。

これはバグですか?それとも手順がありませんか?パンダとdaskの行動は違うようです。

おかげ

JC

答えて

関連する問題