レコードリンクのファジーマッチアルゴリズムを使用して2つのデータ要素またはフィールドを比較することを検討していますが、それぞれの比較に最適なアルゴリズムを決定したいと考えています。私は比較することで探していますファジーマッチアルゴリズムを使用してデータ要素を比較する最良の方法
フィールドは、次のとおりです。
- 姓
- 姓
- 性別
- 出生年
- 誕生月
- 誕生日
- SSN
- 会員番号
- MRN
- ストリートナンバー
- ストリート名
- ストリートタイプ
- ストリート方向性
- 市
- 州
- ジップ
- 電話
近似文字列マッチングアルゴリズム(のASM)は、次のとおりです。
- レーベンシュタイン距離
- ハミング距離
- ジャカードの距離
- JAROの距離
- JARO-ウィンクラー距離
- 最長共通部分配列
- 最長共通サブ配列グラム
- オーバーラップ係数
- ラトクリフ-Obershelpの類似性
- ソレンセンダイスの距離
- 谷本係数
- Damerau-レーベンシュタイン距離
- ワグナー・フィッシャーの距離
- のSoundex
- Metaphoneの3
- NYSIIS
まず、FirstName1
とFirstName2
のような2つのフィールドを比較し、完全に一致するかどうかを確認します。
たとえば、FirstName1 = "Bob"
とFirstName2 = "Bob"
は完全一致であるため、ファジーマッチングに移行しません。
一方、FirstName1 = "Jill"
とFirstName2 = "Bob"
は、2つのフィールドのファジー比較に移行します。
ファジィマッチアルゴリズムが特定のフィールド比較で使用する方が良いとわかっていれば知りたいのですが、その逆もあります。
この質問は、文字列比較アルゴリズムの素敵なリストとして役立ちます! –