私は自分のデータに対していくつかのデータ調整を行う予定です。ユーザー提供の国名の正しい国名を予測するにはどうすればよいですか?
状況 -Iには、フィールドがcountry
であるデータがあります。これにはユーザー入力の国名が含まれています(スペルミスや、米国のような同じ国の異なる国名が米国の場合は米国/米国/米国が含まれている可能性があります)。私は正しい国名のリストを持っています。
私が欲しいもの - それが参照している最も近い国を予測する。たとえば、U.S.
が指定されている場合、それはUSA
(私たちのリストの国名が正しい)に変更されます。
私はそれをJavaやopennlpなどの方法で使用できますか?
Levenshtein Distanceは便利です!しかし、問題は、データがある場合USA'は、 'ユナイテッドStates'が、その後の距離は、それがどうあるべきかよりもはるかに来る'のような国のために、です! – AngryLeo
@AyushBanka:その時、私は答えに追加したAPIを使うことができます。この[Git code](https://gist.github.com/maephisto/9228207)が役立ちます。あなたは自分で追加することができます。 – iNikkz