Pythonの検索技術：単語の類似度

私は2つの単語の類似性パーセントを取得したい

abcd versus zzabcdzz == 50% similarity

は非常に正確である必要はありません。それを行う方法はありますか？私はPythonを使用していますが、他の言語を推薦することは自由です。

2011-02-12 Bin Chen

[テキスト差分アルゴリズム]（http://stackoverflow.com/questions/145607/text-difference-algorithm） – tzot

python-Levenshteinを使用してedit distanceを計算してみてください。

レーベンシュタインのPython C拡張モジュールは

レーベンシュタイン（編集）距離、及び編集操作

文字列類似

近似中央値文字列、および一般
を平均文字列の高速計算のための機能を含んでいます
文字列と類似度を設定

2つの文字列の編集距離を最も長い文字列の長さで割って計算することで、類似点の概要を知ることができます。あなたの例では、編集距離は4であり、編集距離の最大値は8であるので、類似度は50％です。

2011-02-12 06:04:23

NLTKライブラリーからいくつかの類似性の指標：

2011-02-12 06:25:31 Asterisk

あなたはpythonの作り付けのモジュールここdifflib

を使用することができますが、そのページからの例です

>>> s = SequenceMatcher(None, "abcd", "bcde") 
>>> s.ratio() 
0.75

2011-02-12 06:34:22 TigrisC

コピーthat答えから：

Pythonでは、difflibがあります。

difflibは、SequenceMatcherクラスを提供しています。このクラスを使用すると、類似性比を得ることができます。関数例：

def text_compare(text1, text2, isjunk=None): 
    return difflib.SequenceMatcher(isjunk, text1, text2).ratio()

2011-02-12 12:03:38 tzot

答えて