xml bz2ファイルのメモリへの読み込みを高速化できますか？

私は英語のWikipediaコーパス（https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2）を深く学習するためにpythonを利用しようとしています。私はgensimを使用しています。xml bz2ファイルのメモリへの読み込みを高速化できますか？

16GBなので、AWSの大きなEC2マシンに座っています。私はそれをロードする

from gensim.corpora.wikicorpus import WikiCorpus 
from gensim.models.doc2vec import Doc2Vec, TaggedDocument 
from pprint import pprint 
import multiprocessing 

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")

私はこれをjupyterノートブックで実行しますが、基本的にこれを読み込もうとしています。私はメモリ消費量とその負荷を非常にゆっくりと見ています。（12時間以上、わずか2 GBまで）。私はこれをスピードアップすることができますどのような方法ですか？

出典

2017-06-12 wprins

これまで私はこの全く同じファイルを別々のサーバーで処理していましたが、それほど大きな遅延はありませんでした。私はノートを非難するつもりです。おそらくコマンドシェル（またはIPython）を使って試してみてください。

出典

2017-06-22 09:48:08

xml bz2ファイルのメモリへの読み込みを高速化できますか？

答えて

関連する問題