2017-03-28 12 views
1

最高のコンテンツを持つツイートを表示するために、特定のハッシュタグを含む多数のツイートを比較する必要があります。同様に、私はそれらのそれぞれの間にペアワイズコサイン類似性を見つけ出し、出力としてペアワイズコサイン類似度が最も高いツイートを表示する必要があります。私はベクトル空間モデル、tf-idfベクトル、word2vec/doc2vecなどについてたくさんのことを読んできましたが、完全に何かを把握することはできませんでした。私はJavaを使用して同じものを実装する必要があります。 scikit-learnのTfidfVectorizerまたはNLTKのsynsetsに代わるものはありますか?Javaを使用して2つのテキスト文書のコサイン類似度を求めるにはどうすればよいですか?

答えて

0

Apache Mahoutを使用して、フォルダにあるすべてのテキスト文書をベクトル化することができます。

最初のステップは、をファイルし、これらのシーケンスファイルからベクトルを作成シーケンスを作成することです。

このpageには、その操作方法が記載されています。次に、RowSimilarityJobクラスを使用してコサインの類似性を計算することができます。

関連する問題