0
from deepdist import DeepDist
from gensim.models.word2vec import Word2Vec
from pyspark import SparkConf, SparkContext
conf = (SparkConf()
.setAppName("Work2Vec")
)
sc = SparkContext(conf=conf)
corpus = sc.textFile('AllText.txt').map(lambda s: s.split())
def gradient(model, sentences):
syn0, syn1 = model.syn0.copy(), model.syn1.copy() # previous weights
model.train(sentences)
return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1}
def descent(model, update):
model.syn0 += update['syn0']
model.syn1 += update['syn1']
with DeepDist(Word2Vec(corpus.collect())) as dd:
dd.train(corpus, gradient, descent)
dd.model.save("Model")
でgensim word2vecを実行Deepdictを、しようと、私は、56Gbのテキストを持っているとword2Vecモデルを構築したいだけgensimを使用することが非常に遅いので、私はdeepdistしようとすると、ウェブ上でのコード例あなたのコピーと貼り付けコードは、このプルリクエストで補正するタイプミスがあり私を助けてくださいpyspark
これはウェブhttp://deepdist.com/へのリンクです –