2つのドキュメント間の類似性を見つけるために、私はこのタスクを実行するためにmahoutの使用を採用する予定です。マハウトのコサイン類似度の計算
プロセスが含まれる:
- 取り外しストップワード類似 度を与え
- 実行コサイン類似度
- (効果的な検索を行う)TF-IDFにドキュメントを変換します
私はこれをmahoutで実装する予定です。私はマハウトの初心者です。誰かがこれを実行するためにいくつかのチュートリアルで私を助け、文書間の類似性を計算する有効な手段かどうか教えてください。
2つのドキュメント間の類似性を見つけるために、私はこのタスクを実行するためにmahoutの使用を採用する予定です。マハウトのコサイン類似度の計算
プロセスが含まれる:
私はこれをmahoutで実装する予定です。私はマハウトの初心者です。誰かがこれを実行するためにいくつかのチュートリアルで私を助け、文書間の類似性を計算する有効な手段かどうか教えてください。
何も実装する必要はありません。 seqdirectoryとseq2sparseを使用してデータをベクトル化します。その後、RowSimilarityJobを使用して、ペアワイズコサインの類似性を計算することができます。
hteヘルプありがとうございます。私は今マウハウトに取り組んでいます – siddharth
Windowsでmahoutを使うのは賢明ですか、Linuxに移行する必要があります。どうかしてください。 – siddharth
何を試してみましたか?あなたはどんな問題に直面していますか?一般的なイントロが必要な場合は、Mahout in Actionをお読みください。 –