2012-01-05 12 views
1

2つのドキュメント間の類似性を見つけるために、私はこのタスクを実行するためにmahoutの使用を採用する予定です。マハウトのコサイン類似度の計算

プロセスが含まれる:

  1. 取り外しストップワード類似
  2. 度を与え
  3. 実行コサイン類似度
  4. (効果的な検索を行う)TF-IDFにドキュメントを変換します

私はこれをmahoutで実装する予定です。私はマハウトの初心者です。誰かがこれを実行するためにいくつかのチュートリアルで私を助け、文書間の類似性を計算する有効な手段かどうか教えてください。

+0

Windowsでmahoutを使うのは賢明ですか、Linuxに移行する必要があります。どうかしてください。 – siddharth

+0

何を試してみましたか?あなたはどんな問題に直面していますか?一般的なイントロが必要な場合は、Mahout in Actionをお読みください。 –

答えて

2

何も実装する必要はありません。 seqdirectoryとseq2sparseを使用してデータをベクトル化します。その後、RowSimilarityJobを使用して、ペアワイズコサインの類似性を計算することができます。

+0

hteヘルプありがとうございます。私は今マウハウトに取り組んでいます – siddharth

関連する問題