0
私は英語のWikipediaコーパス(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)を深く学習するためにpythonを利用しようとしています。私はgensimを使用しています。xml bz2ファイルのメモリへの読み込みを高速化できますか?
16GBなので、AWSの大きなEC2マシンに座っています。私はそれをロードする
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
私はこれをjupyterノートブックで実行しますが、基本的にこれを読み込もうとしています。私はメモリ消費量とその負荷を非常にゆっくりと見ています。 (12時間以上、わずか2 GBまで)。私はこれをスピードアップすることができますどのような方法ですか?