データの大容量ファイル(7GB)で学習したい:800行、5百万列。だから私はこれらのデータをロードし、私が使用できる形式(2Dリストまたは配列)にしたいと思います。イテレータまたはチャンクなしで大量のデータをロード
問題は、私は、この種のを使用する方法について多くのことを聞いた私は、データをロードし、それらを格納しようとすると、彼らはすべて私の記憶(12ギガバイト)を使用し、ちょうど行500
で停止し、ここにありますチャンクとイテレーターを使用するようなデータがありますが、それらを完全にメモリにロードしてクロス検証を行うことができます。 私はパンダを使って私を助けようとしましたが、問題は同じです。
7GBのデータをすべてロードして保存する際に問題がありますか?または私を助けることができる他のアイデア?
他のリソースの使用量を差し引いて12 GBのRAMが残っていますか? – timgeb
とにかく、すべてをメモリにロードしたいのに十分なメモリがない場合、答えはより多くのメモリを購入することです。何らかの形でデータを圧縮する。 – timgeb
は、あなたが何をしたいかによって決まります。途中で分割されたデータがパーツにロードされ、毎回1つのパーツがロードされます。 – galaxyan