2017-11-22 15 views
1

私は大きなデータセットを持っていますが、私はパンダのデータフレームを読み込む必要があります。Python pandas SQLデータベースのカテゴリデータを扱う文字列

かなり長い文字列を扱うカテゴリデータがたくさんあります。

pandas read_sql_queryメソッドを使用しようとしていますどの列をカテゴリデータとして扱うべきかを指定できないようです。

これは私にメモリの問題があることを意味します。

私は、文字列のようなものを指定できるRのバックグラウンドを持っています。これは、Rで整数としてインデックス付けされているため、小さなメモリフットプリントで長い文字列を持つことができるということです。Python/Pandasで同じことをすることはできませんか?

私はデータベースからデータを読み込んでいます。後でない。あなたがデータフレームに入れたら、パンダの文字列をカテゴリに変換するのは簡単ですが、それは私が探しているものではありません。

私は単純にデータベースのデータをエンコードすることができますが、私はそれを避けたいと思います。

答えて

0

現時点でDB側でエンコードしています(これはマッピングテーブルでJOINを使用して行うことができます)が唯一の重要なオプションです。

いくつかの類似した機能の要望がありました:

はチャンク内のデータを読み取り、category DTYPEに各チャンクの変換があるかもしれませんすべてのチャンクからカテゴリに参加する必要があるかもしれないので、難しいです...

+0

ありがとう。私は少し悲しいこれはまだ利用可能ではありません。一般的には、すべての型のマッピングは、Rと比較してパンダで少しスケッチに見えますが、どこからでも変換するための辞書を作成することができます。ああ、私は待たなければならない。おそらく私はそれの周りに自分自身のラッパーを行うことができますチャンクを見てみようとします。 – CodeMonkey

関連する問題