私は大学名の列を持つデータベースを持っています。これらの値は、自由形式のユーザーテキスト入力によって収集されました。実際には重複した値がたくさんありますが、まったく同じではありません。例えばほとんど同じような値を重複排除する方法は?
:
Washington St. University
Washington State University
Washington State University
WASHINGTON STATE UNIVERSITY
Washington State
WSU
は、どのように私はこのリストから重複を取り除いて行くべきですか?私は、levenshtein
とsimilar_text
のようなphp関数とマッチ除外のための調整しきい値を使うことを考えました。しかし、私はウサギの穴をあまりにも深く掘り下げる前に、より良い道があるかどうか疑問に思います。
私は問題に取り組むための概念的な戦略やアルゴリズムを提供する回答を探しています。私はどんなプログラミング言語にも擬似コードにも満足しています。
選択したスプレッドシートにデータをロードし、標準化された名前を入力名の横に置きます。早く始めるほど早く終わります。 –
あなたはどのデータベースにいますか?これは、このような関数に大きな違いをもたらす – Twelfth
sql-server私はあなたが使用できるデータ品質ツールがあると思う。 http://searchsqlserver.techtarget.com/feature/SQL-Servers-Data-Quality-Services-makes-cleanup-a-cinch – maSTAShuFu