名前に基づいて一部のデータのクロスバリデーションを行う必要があります。名前の類似点を比較する
が 私が直面してる問題がソースに応じて、名前は例えば、わずかな変化を持っているということです:そう、それは手動で非常に時間が厳しいだろうか
L & L AIR CONDITIONING vs L & L AIR CONDITIONING Service
BEST ROOFING vs ROOFING INC
私は、レコードの数千を持っているが、私が欲しいですできるだけプロセスを自動化します。
追加の単語があるので、名前を小文字にするだけでは十分ではありません。
これを処理する良いアルゴリズムはどれですか?たぶん、「INC」や「サービス」
編集のような言葉に低い重みを与える相関を計算する
:
私はまともなを取得していますdifflibライブラリに
difflib.SequenceMatcher(None,name_1.lower(),name_2.lower()).ratio()
を試してみましたその結果。
これは非常に難しい問題です。 – maxymoo