次のように私は、CSVファイルの文章を使ってgensimでword2vecモデルを訓練しています:Gensim word2vecオンライントレーニング
import string
import gensim
import csv
import nltk
path = '/home/neel/Desktop/csci544_proj/test/sample.csv'
translator = str.maketrans({key: None for key in string.punctuation})
class gen(object):
def __init__(self, path):
self.path = path
def __iter__(self):
with open(path) as infile:
reader = csv.reader(infile)
for row in reader:
rev = row[4]
l = nltk.sent_tokenize(rev)
for sent in l:
sent = sent.translate(translator)
yield sent.lower().split()
sentences = [path]
for p in gen(path):
model = gensim.models.Word2Vec(p, min_count=1, iter=1)
print(model.vocab.keys())
私は次のような結果を得る: ([ 'B'、 'U'、「Mを'' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' ' 'l'])
私が得る結果は言葉ではなく文字です。プログラムはどこが間違っていますか?
可能な重複[更新gensim word2vecモデル](http://stackoverflow.com/questions/22121028/update-gensim-word2vec-model ) – ksindi