2016-03-31 17 views
0

私はPythonとgensimで全く新しいです。私は、Windows7(64)のPython 3.4でgensimからword2vecを使用しようとしています。PythonでWord2Vecを実行する際のエラー

import csv 
with open('Data.csv', 'r') as csvfile: 
Word2VecTextTrain = csv.reader(csvfile, delimiter=' ') 
    from gensim.models import Word2Vec 
    model = Word2Vec(Word2VecTextTrain, size=100, window=3, min_count=5, workers=4) 

"Data.csv"には30k行のテキストが含まれています。これらのテキストは、20語までの完全な文または不完全な文のいずれかです。それらの中には「/」や数字を含むものもあります。

私は、このエラーに直面している:

Traceback (most recent call last): 
    File "C:/Users/Home/PycharmProjects/Word2Vec Project/Word2Vec_2016_03_23", line 26, in <module> 
    model = Word2Vec(Word2VecTextTrain, size=100, window=5, min_count=5, workers=4) 
    File "C:\Users\Home\Miniconda3\lib\site-packages\gensim\models\word2vec.py", line 431, in __init__ 
    self.build_vocab(sentences, trim_rule=trim_rule) 
    File "C:\Users\Home\Miniconda3\lib\site-packages\gensim\models\word2vec.py", line 497, in build_vocab 
    self.finalize_vocab() # build tables & arrays 
    File "C:\Users\Home\Miniconda3\lib\site-packages\gensim\models\word2vec.py", line 625, in finalize_vocab 
    self.reset_weights() 
    File "C:\Users\Home\Miniconda3\lib\site-packages\gensim\models\word2vec.py", line 932, in reset_weights 
    self.syn0[i] = self.seeded_vector(self.index2word[i] + str(self.seed)) 
    File "C:\Users\Home\Miniconda3\lib\site-packages\gensim\models\word2vec.py", line 946, in seeded_vector 
    once = random.RandomState(uint32(self.hashfxn(seed_string))) 
OverflowError: Python int too large to convert to C long 

Process finished with exit code 1 

私は、このエラーの理由は分かりません。どんな助力も本当に感謝しています。

答えて

1

しかし私は、LineSentenceがより良いあなたに合うかもしれない、私のUbuntuマシン上でエラーを再現することができませんでした。あなたの提案を

from gensim.models import Word2Vec 
from gensim.models.word2vec import LineSentence 

Word2VecTextTrain = LineSentence('Data.csv') 
model = Word2Vec(Word2VecTextTrain, size=100, window=3, min_count=5, workers=4) 
+0

感謝を。残念ながら、それは私に同じエラーを与えました。 – user3439050

+0

あなたは入力ファイルを共有できますか? – kampta

関連する問題