私は大きなデータセットを持っていますが、私はパンダのデータフレームを読み込む必要があります。Python pandas SQLデータベースのカテゴリデータを扱う文字列
かなり長い文字列を扱うカテゴリデータがたくさんあります。
pandas read_sql_queryメソッドを使用しようとしていますどの列をカテゴリデータとして扱うべきかを指定できないようです。
これは私にメモリの問題があることを意味します。
私は、文字列のようなものを指定できるRのバックグラウンドを持っています。これは、Rで整数としてインデックス付けされているため、小さなメモリフットプリントで長い文字列を持つことができるということです。Python/Pandasで同じことをすることはできませんか?
私はデータベースからデータを読み込んでいます。後でない。あなたがデータフレームに入れたら、パンダの文字列をカテゴリに変換するのは簡単ですが、それは私が探しているものではありません。
私は単純にデータベースのデータをエンコードすることができますが、私はそれを避けたいと思います。
ありがとう。私は少し悲しいこれはまだ利用可能ではありません。一般的には、すべての型のマッピングは、Rと比較してパンダで少しスケッチに見えますが、どこからでも変換するための辞書を作成することができます。ああ、私は待たなければならない。おそらく私はそれの周りに自分自身のラッパーを行うことができますチャンクを見てみようとします。 – CodeMonkey