私はDouble MetaphoneとCaverphone2で文字列の比較を行ってきました。名前、住所などのようなものでうまくいきます(Caverphone2は私にとって最適です)。しかし、電話番号、IPアドレス、クレジットカード番号などの数値になると、あまりにも多くの誤検出が発生します。あいまい一致番号
したがって、LuhnとVerhoeffのアルゴリズムを見てきました。私はほしいが、それほどではない。彼らは検証には良いようだが、ファジーマッチングのために構築されているようには見えない。ファジィ文字列アルゴリズムに似た符号化と比較目的のために、2桁の数字を含む1桁のエラーと転置エラーを検出できるLuhnとVerhoeffのような動作はありますか?
数字をエンコードして100,000個の他の数字と比較して、非常に一致するものを探したいのですが。 7041234のようなものは7041324と転写エラーの可能性がありますが、4213704のようなものは一致しません。
Naive question:Levenshtein distanceはそうしないでしょうか? –
はい、それはうまくいくかもしれません。特にDamerau-Levenshteinの距離は、まさに私が探しているものかもしれません! – JeffG