reモジュールを使用してウェブサイトからデータを解析する

reモジュールを使用してウェブサイトからデータを解析しようとしています。問題は、私がモジュールの初心者であり、どのようにして正確にデータを解析するのかわからないことです。私が解析しようとしています何reモジュールを使用してウェブサイトからデータを解析する

"= HREF" にリンクです。私のコードのかっこで何を入力する必要がありますか？

body_links = re.findall(r'<a>()</a>', str(resp1Data))

出典

2017-01-23 Data1234

文書を読み、試してみてください。 'href = \ "{1} \"'のようになります – GRAYgoose124

テキストのイメージではなく、リテラルテキストを貼り付けてください。 – PaulMcG

代わりにpythonのbeautifulsoupパッケージを使用してください。 Webコンテンツの解析に非常に便利です。

例：

from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a><span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print a['href']

これはあなたに与えられたHTMLからすべてのハイパーリンクを提供します。は、これはあなたが探しているコードがある

出典

2017-01-23 07:15:05

ホープ：

re.findall(r'href="(.+?)"', str(resp1Data))

これは直接href=後と""の間にすべてのものと一致しました。 .は「任意の文字」を表し、「1回以上の出現」については+、「非欲張り」の場合は?を意味し、可能な限り短い一致が使用されます。

正規表現を読んでください。これはかなり基本的で重要なものです。

出典

2017-01-23 09:33:10 primateer

reモジュールを使用してウェブサイトからデータを解析する

答えて

関連する問題