PostgreSQLでpg_trgmモジュールの類似性関数を使用していますが、今では類似の単語類似度関数を探しています。類似点 Pythonで。私はpythonで多くのメソッドを見つけました。 difflib、nltkですが、PostgreSQLのSimilarity関数と同様の結果は得られません。Postgresql類似度関数と同等のPython文字列一致関数
私はこのコードを単語の一致に使用していますが、結果はPostgreSQLの類似性関数の結果と大きく異なります。これらの結果は、PostgreSQLの類似性機能の結果より優れていますか? PostgreSQLに似た結果を生成するために使用できるメソッドやライブラリがありますか?類似性は機能しますか? PostgreSQLのドキュメントから
from difflib import SequenceMatcher
import nltk
from fuzzywuzzy import fuzz
def similar(a,b):
return SequenceMatcher(None,a,b).ratio()
def longest_common_substring(s1, s2):
m = [[0] * (1 + len(s2)) for i in xrange(1 + len(s1))]
longest, x_longest = 0, 0
for x in xrange(1, 1 + len(s1)):
for y in xrange(1, 1 + len(s2)):
if s1[x - 1] == s2[y - 1]:
m[x][y] = m[x - 1][y - 1] + 1
if m[x][y] > longest:
longest = m[x][y]
x_longest = x
else:
m[x][y] = 0
return s1[x_longest - longest: x_longest]
def similarity(s1, s2):
return 2. * len(longest_common_substring(s1, s2))/(len(s1) + len(s2)) * 100
print similarity("New Highway Classic Academy Lahore","Old Highway Classic Academy")
print nltk.edit_distance("This is Your Shop","This")
print fuzz.ratio("ISE-Tower","UfTowerong,")