私はまばらであるとメモリ効率のために、私は場合でも、新しい表現がdtype=float64で終わると思われるしかしto_sparse()df.to_sparseのDTYPE（）結果の定義

を使用して、それを変換したいデータフレームdfを持っています私のdfはdtype=int8です。

to_sparse()を使用すると、データタイプを指定する方法はありますか/自動変換が無効になるのはdtype=float64ですか？

2016-04-26 Segmented

要するに、いいえ。

dtypesはpandasによって制御されるエンティティではありません。 Dタイプは、通常、数値が小さいものです。 Dタイプは決して制御できません。が自動的にアサートされます。はnumpyによって変更され、データフレームまたはnumpy配列内のデータを変更する場合にのみ変更できます。

つまり、dtypeとしてintではなくfloatで終わる典型的な理由は、系列またはnumpy配列にNaN値が導入されているためです。これはパンダだと言う人もいます。私は個人的には、パンダとナンピーの間の（あまりにも）密接なカップリングによるものだと主張するだろう。

通常、dtypesは何にも信頼されるべきではありません。信用できない信頼性があります。私はnumpy/pandasで働いている人は誰もdtypesに全く晒されなかったらより良い生活を送るだろうと思う。

あなたが実際に浮動小数点を嫌うならば、私が知る限り他の唯一の選択肢は、文字列表現を使用することです。もちろん、ほとんどの場合、さらに多くの問題が発生します。

出典

2016-04-26 13:18:08 firelynx

素晴らしい説明をいただきありがとうございます。私は疑問を抱いていました： "dtypeとしてintの代わりにfloatで終わる典型的な理由は、' df.fillna（0）.to_sparse（）を使うとNaNの値がシリーズまたはnumpyの配列に導入されるからです。 fillvalue = 0） 'NaN値で終わることは避けてください。しかしこれは問題を解決しません。私はあなたの説明からその行を読むのを忘れましたか？ – Segmented

numpyは自動的にdtype floatをdtype intに変更しません。これはNait値がないためです。明らかに.to_sparse（）変換のある時点でNaN値があります。最後に '.astype（int）'を追加しようとすると、dtypesがintに変更されますが、これはパフォーマンスを上げる別のステップです。 – firelynx

説明していただきありがとうございます！ – Segmented

Pandasスパースフレームの実装がpandas.sparse.frameであることを確認すると、astype()メソッドはまだリリース0.18.0として実装されていることがわかります。 Ref. Github

dtypeの変換は、pandas.core.frame（Pandas DataFrame）のように動作するはずです。パンダDataFramedfを考えると、我々はSparseDataFrameに変換し、dtype

df.to_sparse().astype(dtype)

を指定することができATM、SparseDataFrameはdtypeのための多くのサポートを持っていないが、それは、現在開発されています。この問題は、私がGithubを開いたことを参照してください。

出典

2016-04-27 12:07:26 Segmented

df.to_sparseのDTYPE（）結果の定義

答えて

要するに、いいえ。

関連する問題