私は、世界各地からのロケーションアドレス(500k +)というかなり大きなデータベースを持っています。アドレスの多くは重複しているか、重複しています。 新しいアドレスが入力されるたびに、データベースに既に存在するかどうかを確認し、存在する場合は、既存のlat/longを使用して新しいエントリに適用します。 私は別のテーブルにリンクしていない理由は、検索するグループとしてアドレスが使用されていないためです。 住所に完全一致がある場合は、その緯度/経度を適用します。もしそうでなければ、私は都市レベルに行き、それを適用します。私がそこで試合をすることができなければ、別のプロセスを実行します。欠落しているジオコーディングをクリーンアップする(またはデータのクリーニングに関する一般的なアドバイス)
ここでは、豊富な背景と問題点があります。時々、私は緯度/経度が通常の許容誤差範囲をはるかに超えてしまうことになります。しかし、不思議なことに、通常、これらの緯度/経度のうち1つまたは2つは範囲外にあり、残りのデータは正しい都市名のデータベースに存在します。
データのクリーンアップをどのようにお勧めしますか。私はgeonamesデータベースを持っているので、理論的に私は正しいデータを持っています。私が苦労しているのは、これを達成するためにあなたが実行するルーチンは何かです。
誰かが(低いレベルの)データスクラビング方向の方向に私を指すことができるなら、それは素晴らしいでしょう。
私はこの問題をよく理解していません...少し明確にできると思いますか? –