がある場合、アンカーテキストを検索:私は<のペアの間にテキストここに私がコンテンツを見つけるために使用している再文字列だ特定のサイト</p> <p>にリンク>タグを見つけたいが、タグ
r'''(<a([^<>]*)href=("|')(http://)?(www\.)?%s([^'"]*)("|')([^<>]*)>([^<]*))</a>''' % our_url
結果はこのようなものになります。
r'''(<a([^<>]*)href=("|')(http://)?(www\.)?stackoverflow.com([^'"]*)("|')([^<>]*)>([^<]*))</a>'''
これは、ほとんどのリンクのための素晴らしいですが、それ内のタグ付きのリンクを持つことのエラー。
([^<]*))</a>'''
へ:
(.*))</a>'''
をしかし、それはちょうど私が望んでいないリンク、後のページ上のすべてを持って、私は正規表現からの最後の部分を変更してみました。私がこれを解決するために何ができるかについての提案はありますか?
大変ありがとうございました。 – Teifion