2017-10-25 27 views
0

pd.get_dummiesまたはSerie.get_dummiesの列からダミー変数を作成しようとしていますが、メモリエラーの瞬間的なエラーが発生します。 (私は約100万行を持っています)。ダミー変数を作成するとエラーが発生する

列には、次のようになります。

 Col1 
0  A | B 
1  A 
2  C | A 
3  B | C 

は、このエラーを回避する方法はありますか?別のライブラリなどを使用していますか?

ありがとうございました!

+0

RAMを増やすことができます。または、ちょうど一度に小さなチャンクを処理することがあります – DJK

+0

@ djk47463が述べたように、2つのパスで1行ずつ進む必要があります。最初のパスは指定された列のすべての値を収集し、2回目のパスはその列の値に従ってデータを変更し、新しいファイルに書き込みます。新しいファイルが作成されたら、それを疎な配列で読み込みます。 –

答えて

0

変数をmentioned hereとしてエンコードする他の方法を試してみてください。また、記事に記載されているさまざまな方法の実装については、this repositoryをチェックアウトすることもできます。ここにはdocumentation for the sameがあります。

そうしないと、彼のコメントで@Vivek Kumarが述べたように、2回のパスでそれを行う必要があります。

変数をエンコードする別の方法については、thisthisthisをご覧ください。

関連する問題