ドキュメントのリストを取得するライブラリがあり、距離のnxn行列を計算する - word2vecモデルが提供される場所は?ジェネリックでは2つのドキュメントの間でこれを行うことができますが、すべてのドキュメント間で高速比較が必要です。 sklearnsのようなcosine_similarity。ペアワイズEarth Moverすべてのドキュメント間の距離(word2vecの表現)
1
A
答えて
0
"ワードムーバーの距離"(ワード - ベクトルのグループに適用されるアースムーバーの距離)は、各ドキュメントのすべての単語に依存する、かなり複雑な最適化計算です。
私は、一度に多くのものを計算するときには速くなるのを覚悟していません。
ペアワイズ距離を計算するために必要なのは、ネストされたループだけで、各(順序を無視する一意の)ペアリングを考慮する必要があります。文書のリストを想定し例えば
、(各リスト・オブ・言葉は)docs
、model
でgensimワードベクトルモデル、およびnp
としてインポートnumpy
、あなたはペアごとの距離Dとの配列を計算することができます:
D = np.zeros((len(docs), len(docs)))
for i in range(len(docs)):
for j in range(len(docs)):
if i == j:
continue # self-distance is 0.0
if i > j:
D[i, j] = D[j, i] # re-use earlier calc
D[i, j] = model.wmdistance(docs[i], docs[j])
それはしばらく時間がかかることがありますが、その後D.
関連する問題
- 1. 2つのヒストグラム間のEarth Moverの距離/ Wassersteinメトリック
- 2. Tensorflowの消失関数としてEarth Moverの距離を使用する
- 3. ペアワイズ距離が
- 4. R大きなラスタのためにEarth Moverの距離を計算する
- 5. 正規表現のLevenshtein距離
- 6. ペアワイズ距離と残差計算の最適化
- 7. 2つのポイント間の距離と距離が最も離れています
- 8. Python:距離と一緒にポイントとリターンポイントの間のすべてのペアごとの距離を見つける
- 9. A、Bの間の距離
- 10. mysqlの間の距離
- 11. SQL関数と距離の間の距離が最も近い
- 12. 住所間の距離
- 13. Zip + 4コード間の距離?
- 14. ピーク間の測定距離
- 15. 行間の距離ListView Android
- 16. 凝縮されたペアワイズ距離を直接得る方法は?
- 17. sklearnのペアワイズ距離の結果が予想外に非対称です
- 18. Android:ユーザーの現在地とビーコンとの距離を調べる
- 19. 中心からサンプル点までのペアワイズ距離行列を作成する
- 20. 座標の間のすべての距離を合計するMySQL - キロバイト駆動
- 21. C++ 2D配列の2点間の距離を調べる
- 22. ワードネット内のsynset間の距離を調べる
- 23. ファクトAPIとGoogle Places APIの距離マトリックス(距離と時間)について
- 24. Scikitの距離メトリックLearn
- 25. ボックス間の距離を決定する
- 26. jaccard計算する行間の距離
- 27. ListViewの2つの位置間の距離を表示
- 28. 各文書内の2点間の距離とマイルフィールド未満の距離
- 29. グループごとに可能なすべての座標ペア間の最大距離
- 30. floyd warshallのノード間の距離
ネストされたループのpythonで遅いアレイ内のすべてのペアごとの距離があるでしょう - Javaへ切り換えることができます。しかし、ehadsをありがとう。 – pythOnometrist