2011-06-23 1 views
0

パーサを使ってウェブサイト上の住所を自動的に検出するのに良い概念はありますか?ウェブサイト上のアドレスを検出する方法/どの正規表現ですか?

私は約何かのような単純な: "文字と数字が含まれており、3から15語の間にあります"。

残念ながら、住所は英国、米国、ドイツ、スペインで異なります。 誰がコードスニペット、正規表現、アイデアを手伝ってくれましたか?

ありがとうございました!

+0

あなたはどの言語を使用していますか?あなたは何をしようとしていますか?あなたがアドレスを使って何をするかについてのいくつかの情報が、このソリューションに役立つでしょうか? –

+0

フォーマットが多すぎます。あまりにも多くのランダムなものがアドレスとして解釈される可能性があります。しかし、可能なアドレスのフォーマット仕様がある場合は、それが役に立ちます。 – Qtax

答えて

1

私はこれが古い質問だと知っていますが、少なくとも米国の住所については解決している可能性があります。我々はちょうどそれをするaddress extractorを書いた。これは単純な問題ではなく、REGEXだけでは機能しません。我々は、特定のタイプの文字列を探すためにREGEXを利用していますが、最良の候補文字列を得るためにできるだけそれを制限しています。入力からそれらを取り除くと、アドレス検証エンジンと照合されます。 REGEX +検証は非常に良い結果をもたらします。検証がなければ、それは良い推測ですが、あなたが正しいときと間違っているときを知ることはできません。

関連する問題