2012-01-04 20 views
-2

私は2つの文書を比較し、類似度を見出す必要があります。類似度

私がする必要があるのは、2つのドキュメントを比較し、結果として数値を与えることだけです。数字は類似度を表している必要があります(類似したドキュメントのほうが大きい)

このプロセスを実行するには、効果的な手段が必要です。 (類似度のみ類似した単語の基礎で測定されていませんが、コンテキストがあまりにも考慮に入れなければならない。)

誰もがこのプロセス

+0

多くのリソースは、このトピックにあります。検索してみてください... –

+0

私はペアワイズ類似性に関する論文を読んでいます。しかし、私は効果的な実装を探しています。あなたは1つを提案できますか? Please – siddharth

+0

なぜこの質問は3つの否定的な投票を受けましたか? – bikashg

答えて

0

チェックアウトLSA(潜在Sematic分析のための効果的なアルゴリズムを提案することができます)。このアルゴリズムは、2つのドキュメントの類似性をチェックするだけです。ここで

、あなたはSVD(特異値Decompostion)と呼ばれる技術について学ぶために必要があり

あなたは文書クラスタリング手法を実装したい場合は、MATLABを使用して試してみて、Matlabの-TMGツールをインストールすることができます。

0

迅速で非数学的な説明と実装(Javaの場合)がほしいのであれば、ここにはn-gram based solutionへのリンクがあります。

ヒント:フリーテキストのため、4又は5の屋根板の長さを使用する(これは、署名生成アルゴリズムのパラメータである)