これは、計算言語学/ファジーストリングマッチングについて尋ねるのは2回目ですが、今度はステミングの問題ではありません。 私の最初の問題は、ファジーストリングマッチングを使用してデータベースを重複排除することでした。今、文字列が別の文字列の省略形であるかどうかを検出する必要があります。たとえば: JOHN ADRIAN FREEMANウェルターは、Microsoft Office JAFウェルターや
のExcelワークシートの列見出しの解析私はこのようになりますExcelスプレッドシートを持っています。渡す文字列が正確な列の見出しと一致しない可能性があることに注意してください。 私はxlrdを使用していますが、このような何かをしています: setOfheadings = set(['ABC', 'JKL'])
found_header = False
for i in range(1,sh