2017-04-17 9 views
1

私はWMDを使って2つのテキストの類似度を計算しようとしています。私はgensimを使用して、Pythonの3に次のコードを使用しようとしました:Pythonのワードムーバーの距離

word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 
word2vec_model.init_sims(replace=True) # normalizes vectors 
distance = word2vec_model.wmdistance("string 1", "string 2") # Compute WMD as normal. 

しかし、私はこれが私に正しい値を返しているとは思いません。どのように私はこれをPythonで行うべきですか?

答えて

2

文字列を分割してください:

distance = word2vec_model.wmdistance("string 1".split(), "string 2".split()) 
>>> 0.4114476676950455 

引数は、文字列のリストにする必要があります。

+0

問題が簡単な場合があります。ありがとうございました。 Btw、2つのテキストが関連しているかどうかを測定するには、より良い方法を知っていますか? – Skinish