私は会社名のテーブルを持っています。人間の入力ミスのために複製がたくさんあります。等の細分化が含まれなければならない場合は、別の認識、タイプミスは、私はすべてのこれらの重複は一つの会社「1C」としてマークされるようにしたいがあります。類似の会社名の重複排除
+------------------+
| company |
+------------------+
| 1c |
| 1c company |
| 1c game studios |
| 1c wireless |
| 1c-avalon |
| 1c-softclub |
| 1c: maddox games |
| 1c:inoco |
| 1cc games |
+------------------+
私はタイプミスをなくすための良い方法としてLevenshtein distanceを同定しました。しかし、細分化が追加されると、Levenshteinの距離は劇的に増加し、もはやこれのための良いアルゴリズムではありません。これは正しいです?
一般に、私は計算言語学ではほとんど経験がないので、私はどのような方法を選択すべきか迷っています。
この問題に対してどのようなアルゴリズムをお勧めしますか?私はそれをjavaで実装したいと思います。純粋なSQLも大丈夫です。ソースへのリンクは高く評価されます。ありがとう。
関連項目:https://stackoverflow.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names https:// stackoverflow .com/questions/7974972/how-to-normalize-company-names https://stackoverflow.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business- DNS – polm23