テキストの類似性の評価のためにアルゴリズムを実装する必要があります(またはオープンソースライブラリで1つを見つける必要があります)。私はそれらの間で一致するペアを作成するために、2つの任意のドキュメントセット(比較的小さなテキストの大きなチャンク)に対して効率的なアルゴリズムが必要です。どちらのドキュメントがどのドキュメントから生成される可能性が最も高いですか。テキストの類似性のためのアルゴリズム/ライブラリ
私はこれを2つに分割すると思います - 各ペアの類似性係数を定義し、次に割り当て問題アルゴリズムのいくつかを適用します。私は割り当てアルゴリズムのために私は良い数の解決策を見つけることができますが、類似度係数を計算するための良いものは見つけられません。
文書が事前にわかっていないことに注意してください。テキストの計算インデックス(存在する場合)は高速でなければなりません。
私はハミング距離、Levenshtein距離の文字列の違いのための他のアルゴリズムのいくつかを認識しています。これは私が探しているものではありません - 私は目的の文字列の代わりにテキストという単語を使用しています。
私はフレーズ検索アルゴリズムと、LuceneやXapianのようなライブラリが作られているのを探していません(少なくともそうであるようです)。
おそらくtf-idfに基づくものです。
私は疑問に思うのですが、すでにこの問題を解決しているのでしょうか、それを行うためにluceteのようなライブラリを使用することが可能でしょうか。ここで
Linuxの 'diff'コマンドで使われている最も長い共通部分配列アルゴリズムをわずかに変更したバージョンを使うこともできます。詳細はこちら:http://en.wikipedia.org/wiki/Longest_common_subsequence_problem – OGH
はい、これはオプションです。残念ながら、すべてのペアで独立して実行する必要があるため、パフォーマンスが賢明に過度に高価に見えます。私は何らかの形式の索引付けに基づいてペアごとの比較の複雑さを軽減するものを見つけることを望んでいます。ありがとう – gsf
[Coeurjolly、Drouilhet and Robineauによる論文](http://arxiv.org/pdf/math/0604246v2.pdf)を見てください。このようなことに最後に取り組んだとき、私はそれが非常に有用であることを発見しました(当時はかなり新しいものでしたが、現在はより良い論文があるかもしれません)。 –