2016-06-30 7 views
2

RAMに書き込まずに大きなデータセットを使用できるようにする方法やPythonパッケージがあるかどうかを知りたい。PythonでRAMの代わりにハードドライブを使用する

私は統計機能としてもパンダを使用しています。

多くの統計関数は信頼できる結果を返すためにデータセット全体を必要とするため、データセット全体にアクセスする必要があります。

私は、Windows 10とLiClipse上

+0

ようこそstackoverflow。まず、「[ここではどのトピックを聞くことができますか」](http://stackoverflow.com/help/on-topic):「書籍、ツール、ソフトウェアライブラリ、チュートリアルをお勧めするまたは他のオフサイトのリソースがオフトピックです "。 Python、pandasなどのメモリマッピングを探してみてください。 –

+0

ようこそstackoverflowへ。これまでに得たものについて、正確に必要なものや答えを受け入れるための詳細を私たちに教えてください。 – SerialDev

答えて

1

(インタプリタはPython 3.4で)あなたが代わりに大きなデータセットをサポートするためにSframesDaskを使用するか、またはその代わりにパンダを使用して最小限にするために、チャンクで/反復を読むことができるPyDevはを使用していますRAMの使用。あなたが必要とするすべてはあなたのシステム上のスワップファイルを設定できます大規模なRAMメモリとしてディスクの仮想化である場合

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
process(chunk) 
+0

OK、ありがとう、しかし、今問題は異なっています.DaskはRAMの使用量を最小限に抑えましたが、現在はパンダの統計機能を使用し、Daskではすべてを使用することはできません。どのようにできるのか?お礼ありがとうございます –

0

:チャンクでblazeライブラリ

読むを見てみた。また価値が 。カーネルはヒューリスティックを使用して、スワップされるべきページとディスク上に残るべきページを把握するために、必要に応じて自動的にページを出し入れします。

+0

ありがとうございます、あなたの提案も有用ですが、Windowsでこれを行う簡単な方法がありますか?どうもありがとうございました –

関連する問題