2016-10-04 15 views
-1

複数の異なる行にあるときこれらのタグの間の内容を抽出する方法はありますか?複数行の正規表現タグ

<link> 
https://widget.websta.me/rss/n/bleh 
</link> 

私が試した:あなたがにBeautifulSoupを使用することができます^

+1

http://stackoverflow.com/a/1732454/847552 – skovorodkin

+0

正規表現は、正規つまり、XMLを解析するために適していない:PあなたはすべきいくつかのXML処理ライブラリを使用してください。例えば、これを読んでください:https://docs.python.org/2/library/xml.etree.elementtree.html#module-xml.etree.ElementTree – freakish

答えて

0

を=のfindAll コンテンツ( '(*)'、web_page_contents、re.DOTALL) をしかし、私は代わりに、次の言及にこのいずれかを取得それを行う。それは非常に良いdocumentationを持ち、非常に簡単です。

次のコードは動作します:それは非常に単純でない限り

import requests 
from bs4 import BeautifulSoup 

r = requests.get(webpage_url) 
soup = BeautifulSoup(r.content, 'lxml') 
for link in soup.find_all('link'): 
    print link.text