ペアワイズEarth Moverすべてのドキュメント間の距離（word2vecの表現）

ドキュメントのリストを取得するライブラリがあり、距離のnxn行列を計算する - word2vecモデルが提供される場所は？ジェネリックでは2つのドキュメントの間でこれを行うことができますが、すべてのドキュメント間で高速比較が必要です。 sklearnsのようなcosine_similarity。ペアワイズEarth Moverすべてのドキュメント間の距離（word2vecの表現）

出典

2017-06-06 pythOnometrist

"ワードムーバーの距離"（ワード - ベクトルのグループに適用されるアースムーバーの距離）は、各ドキュメントのすべての単語に依存する、かなり複雑な最適化計算です。

私は、一度に多くのものを計算するときには速くなるのを覚悟していません。

ペアワイズ距離を計算するために必要なのは、ネストされたループだけで、各（順序を無視する一意の）ペアリングを考慮する必要があります。文書のリストを想定し例えば

、（各リスト・オブ・言葉は）docs、modelでgensimワードベクトルモデル、およびnpとしてインポートnumpy、あなたはペアごとの距離Dとの配列を計算することができます：

D = np.zeros((len(docs), len(docs))) 
for i in range(len(docs)): 
    for j in range(len(docs)): 
     if i == j: 
      continue # self-distance is 0.0 
     if i > j: 
      D[i, j] = D[j, i] # re-use earlier calc 
     D[i, j] = model.wmdistance(docs[i], docs[j])

それはしばらく時間がかかることがありますが、その後D.

出典

2017-06-12 03:13:50 gojomo

ネストされたループのpythonで遅いアレイ内のすべてのペアごとの距離があるでしょう - Javaへ切り換えることができます。しかし、ehadsをありがとう。 – pythOnometrist

ペアワイズEarth Moverすべてのドキュメント間の距離（word2vecの表現）

答えて

関連する問題