最高のコンテンツを持つツイートを表示するために、特定のハッシュタグを含む多数のツイートを比較する必要があります。同様に、私はそれらのそれぞれの間にペアワイズコサイン類似性を見つけ出し、出力としてペアワイズコサイン類似度が最も高いツイートを表示する必要があります。私はベクトル空間モデル、tf-idfベクトル、word2vec/doc2vecなどについてたくさんのことを読んできましたが、完全に何かを把握することはできませんでした。私はJavaを使用して同じものを実装する必要があります。 scikit-learnのTfidfVectorizerまたはNLTKのsynsetsに代わるものはありますか?Javaを使用して2つのテキスト文書のコサイン類似度を求めるにはどうすればよいですか?
1
A
答えて
0
Apache Mahoutを使用して、フォルダにあるすべてのテキスト文書をベクトル化することができます。
最初のステップは、をファイルし、これらのシーケンスファイルからベクトルを作成シーケンスを作成することです。
このpageには、その操作方法が記載されています。次に、RowSimilarityJobクラスを使用してコサインの類似性を計算することができます。
関連する問題
- 1. MALLETで2つの文書のコサイン類似度を取得するにはどうすればよいですか?
- 2. TfidfVectorizerからコサイン類似度を計算するにはどうすればよいですか?
- 3. 2つの行列を使ってコサイン類似度を計算する方法
- 4. 文字列のSklearnコサイン類似度
- 5. 2つの文字列を比較して類似度を求める方法
- 6. Pythonの2つのテキスト文書間の類似度
- 7. skine.manifoldのコサイン類似度TSNE
- 8. 2つのテンソル間のコサインの類似度を計算するには?
- 9. PySparkで2つのベクトルのコサイン類似度を計算する方法は?
- 10. Pythonのコサイン類似度を使用してクエリ文書と比較して最も類似した文書を返します
- 11. 調整されたコサイン類似度に対するPython、Cosineの類似度
- 12. コサイン類似度スパークデータフレームを計算する
- 13. 2つの整数の類似度を計算するにはどうすればよいですか?
- 14. 調整済みコサイン類似度と正規コサイン類似度の選択
- 15. 類似していない2つのファイルを結合するにはどうすればよいですか?
- 16. spark mlコサイン類似度:1からnの類似度スコアを得る方法
- 17. コサイン類似度は、私はファイルを持っている
- 18. 画像に適用されたコサイン類似度尺度
- 19. マハウトのコサイン類似度の計算
- 20. 行列の各行のコサイン類似度
- 21. スパースベクトルの加重コサイン類似度
- 22. word2vecのコサイン類似度1以上
- 23. ユーザ推奨のコサイン類似度
- 24. R:コサイン類似度とMDSのエラー
- 25. 2つの文字列を比較して類似度を求める方法は?
- 26. 類似の列を使用してジョインするにはどうすればよいですか?
- 27. コサイン類似度のためのパンダとSQL Serverの列制限
- 28. コサインの類似性を持つKDTreeを使用できますか?
- 29. コサイン類似度の負の値を扱う方法
- 30. パンダのコラムのコサイン類似度を計算する