2009-03-12 4 views
3

私は、世界各地からのロケーションアドレス(500k +)というかなり大きなデータベースを持っています。アドレスの多くは重複しているか、重複しています。 新しいアドレスが入力されるたびに、データベースに既に存在するかどうかを確認し、存在する場合は、既存のlat/longを使用して新しいエントリに適用します。 私は別のテーブルにリンクしていない理由は、検索するグループとしてアドレスが使用されていないためです。 住所に完全一致がある場合は、その緯度/経度を適用します。もしそうでなければ、私は都市レベルに行き、それを適用します。私がそこで試合をすることができなければ、別のプロセスを実行します。欠落しているジオコーディングをクリーンアップする(またはデータのクリーニングに関する一般的なアドバイス)

ここでは、豊富な背景と問題点があります。時々、私は緯度/経度が通常の許容誤差範囲をはるかに超えてしまうことになります。しかし、不思議なことに、通常、これらの緯度/経度のうち1つまたは2つは範囲外にあり、残りのデータは正しい都市名のデータベースに存在します。

データのクリーンアップをどのようにお勧めしますか。私はgeonamesデータベースを持っているので、理論的に私は正しいデータを持っています。私が苦労しているのは、これを達成するためにあなたが実行するルーチンは何かです。

誰かが(低いレベルの)データスクラビング方向の方向に私を指すことができるなら、それは素晴らしいでしょう。

+0

私はこの問題をよく理解していません...少し明確にできると思いますか? –

答えて

0

これは古い質問ですが、真の原則は決して死ぬことはありません。

私はSmartyStreetsという会社のアドレス確認業界で働いています。あなたがアドレスの大きなリストを持っていて、それを公式の基準に洗練し、それからあなたの業務のあらゆる側面に頼ることになるならば、あなたはCASS認定ソフトウェア(米国のみ、多くは正式にそのようなサービスを提供していない)。

USPSは、CASS認定ベンダーにアドレスデータを「スクラブ」または「クリーンアップ」(標準化と検証を意味する)することをライセンスしています。 SmartyStreetsのLiveAddressなどのサービスを調べて、アドレスを確認したり、リストを一度に処理したりすることをお勧めします。他にもオプションがありますが、これは最も柔軟で手頃な価格だと思います。初期リストをスクラブし、APIを使用して新しいアドレスを受け取ったときにそのアドレスを検証することができます。

アップデート:JSONをさまざまなものに使用しているのを見ています(私はJSONが好きですが、それは使いやすいです)。あなたがそれを提供する必要があるサービスのプロバイダーはたくさんありませんが、SmartyStreets です。さらに、アドレス検証のトピックについては、そのサイトのリソースや記事の一部を読むことで自分自身を教えることができます。

+0

更新しました。 LiveAddressはジオコード座標を提供するようになりました。 – Matt

関連する問題