2017-01-23 15 views
0

reモジュールを使用してウェブサイトからデータを解析しようとしています。問題は、私がモジュールの初心者であり、どのようにして正確にデータを解析するのかわからないことです。私が解析しようとしています何reモジュールを使用してウェブサイトからデータを解析する

enter image description here

"= HREF" にリンクです。私のコードのかっこで何を入力する必要がありますか?

body_links = re.findall(r'<a>()</a>', str(resp1Data)) 
+0

文書を読み、試してみてください。 'href = \ "{1} \"'のようになります – GRAYgoose124

+0

テキストのイメージではなく、リテラルテキストを貼り付けてください。 – PaulMcG

答えて

1

代わりにpythonのbeautifulsoupパッケージを使用してください。 Webコンテンツの解析に非常に便利です。

例:

from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a><span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print a['href']

これはあなたに与えられたHTMLからすべてのハイパーリンクを提供します。 は、これはあなたが探しているコードがある

0

ホープ:

re.findall(r'href="(.+?)"', str(resp1Data)) 

これは直接href=後と""の間にすべてのものと一致しました。 .は「任意の文字」を表し、「1回以上の出現」については+、「非欲張り」の場合は?を意味し、可能な限り短い一致が使用されます。

正規表現を読んでください。これはかなり基本的で重要なものです。

関連する問題