2016-07-13 18 views
0
from deepdist import DeepDist 

from gensim.models.word2vec import Word2Vec 

from pyspark import SparkConf, SparkContext 

conf = (SparkConf() 
    .setAppName("Work2Vec") 
) 

sc = SparkContext(conf=conf) 
corpus = sc.textFile('AllText.txt').map(lambda s: s.split()) 

def gradient(model, sentences): 

    syn0, syn1 = model.syn0.copy(), model.syn1.copy() # previous weights 
    model.train(sentences) 
    return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1} 


def descent(model, update): 

    model.syn0 += update['syn0'] 

    model.syn1 += update['syn1'] 


with DeepDist(Word2Vec(corpus.collect())) as dd: 

    dd.train(corpus, gradient, descent) 

    dd.model.save("Model") 

でgensim word2vecを実行Deepdictを、しようと、私は、56Gbのテキストを持っているとword2Vecモデルを構築したいだけgensimを使用することが非常に遅いので、私はdeepdistしようとすると、ウェブ上でのコード例あなたのコピーと貼り付けコードは、このプルリクエストで補正するタイプミスがあり私を助けてくださいpyspark

script output

+0

これはウェブhttp://deepdist.com/へのリンクです –

答えて

関連する問題