2017-06-12 19 views
0

私は英語のWikipediaコーパス(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)を深く学習するためにpythonを利用しようとしています。私はgensimを使用しています。xml bz2ファイルのメモリへの読み込みを高速化できますか?

16GBなので、AWSの大きなEC2マシンに座っています。私はそれをロードする

from gensim.corpora.wikicorpus import WikiCorpus 
from gensim.models.doc2vec import Doc2Vec, TaggedDocument 
from pprint import pprint 
import multiprocessing 

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2") 

私はこれをjupyterノートブックで実行しますが、基本的にこれを読み込もうとしています。私はメモリ消費量とその負荷を非常にゆっくりと見ています。 (12時間以上、わずか2 GBまで)。私はこれをスピードアップすることができますどのような方法ですか?

答えて

1

これまで私はこの全く同じファイルを別々のサーバーで処理していましたが、それほど大きな遅延はありませんでした。私はノートを非難するつもりです。おそらくコマンドシェル(またはIPython)を使って試してみてください。

関連する問題