0
pd.get_dummiesまたはSerie.get_dummiesの列からダミー変数を作成しようとしていますが、メモリエラーの瞬間的なエラーが発生します。 (私は約100万行を持っています)。ダミー変数を作成するとエラーが発生する
列には、次のようになります。
Col1
0 A | B
1 A
2 C | A
3 B | C
は、このエラーを回避する方法はありますか?別のライブラリなどを使用していますか?
ありがとうございました!
RAMを増やすことができます。または、ちょうど一度に小さなチャンクを処理することがあります – DJK
@ djk47463が述べたように、2つのパスで1行ずつ進む必要があります。最初のパスは指定された列のすべての値を収集し、2回目のパスはその列の値に従ってデータを変更し、新しいファイルに書き込みます。新しいファイルが作成されたら、それを疎な配列で読み込みます。 –