HTMLファイルからの電子メールのセットに一致する以下の正規表現を書いています。電子メールは、このような私は、一般的なプログラミング言語でそれらを実装する前に、私の正規表現をテストするためにRegexPalを使用プログラムでのRegEx異常動作
alice @ so.edu
alice at sm.so.edu
alice @ sm.com
<a href="mailto:alice at bob dot com">
として様々な形式を取ることができます。最後に投稿された電子メールの例で奇妙な動作が観察されます。 RegexPalは私の正規表現のマッチを示していますが、Pythonプログラムで同じ正規表現を使用している間はヒットしません。理由は何でしょうか?
mail_regex = (?:[a-zA-Z]+[\w+\.]+[a-zA-Z]+)\s*(?:@|\bat\b)\s*(?:(?:(?:(?:[a-zA-Z]+)\s*
(?:\.|dot|dom)\s*(?:[a-zA-Z]+)\s*(?:\.|dot|dom)\s*)(?:edu|com))|(?:(?:[a-zA-Z]+\s*(?:\.|dot|dom)\s*(?:edu|com))))
RegExは、さまざまな他の例(データセットにある電子メールパターン)に対応するのに少し複雑です。 http://pythonregex.com/それはここで、特定の問題のように見えます
私が聞くことができるなら、それは何でしょうか?パターンがPythonで一致しないことを確認できます。私が書いているRegEx言語が異なるのでなければ、少し驚くべきことがわかります。 – Dexter
ありがとう!私はそれを逃したとは信じられません。 10時間の私のハードワークの排水をダウン。これを決して忘れないだろう。 : – Dexter
"Python特有の"構文の意味について詳しく説明できますか?プレフィックスr(生の文字列)を除いて、私が言及した正規表現のすべてが良いと思いました – Dexter