2012-03-22 8 views
1

私はコンテンツから電子メールアドレスを抽出する傾向があります。私は偽陽性に関する問題を抱えています。正規表現の電子メール(いくつかの種類)を抽出

のための私の正規表現のための:[email protected]

[^\.^\w+](\w+) *[email protected] *?(\w+) *?(?:\.|dot) *?(\w+) 

正規表現:[email protected]

[^\.^\w+](\w+) *[email protected] *?(\w+) *?(?:\.|dot) *?(\w+) *?(?:\.|dot) *?(\w+) 

私はと一致しない最初の正規表現をしたい: 例@サブサイト

どうすれば修正できますか?

+1

あなたの正規表現は '$ ABCDする@ XYZと一致します...気をつけて、[email protected]である可能性があります。 anycombination123xyz'ではなく+ with my @ my-domain.com'となります。 – Toto

答えて

1

[email protected][email protected]を区別する唯一の方法は、有効なトップレベルドメインのリストを維持することです(はい、申し訳ありません)。

つまり、最後の(\w+)(com|org|info|ly|...などに置き換えます。

There is no universal way.

また、あなただけの1正規表現を行うことができます。

また、私のアドレスは

関連する問題