reモジュールを使用してウェブサイトからデータを解析しようとしています。問題は、私がモジュールの初心者であり、どのようにして正確にデータを解析するのかわからないことです。私が解析しようとしています何reモジュールを使用してウェブサイトからデータを解析する
"= HREF" にリンクです。私のコードのかっこで何を入力する必要がありますか?
body_links = re.findall(r'<a>()</a>', str(resp1Data))
reモジュールを使用してウェブサイトからデータを解析しようとしています。問題は、私がモジュールの初心者であり、どのようにして正確にデータを解析するのかわからないことです。私が解析しようとしています何reモジュールを使用してウェブサイトからデータを解析する
"= HREF" にリンクです。私のコードのかっこで何を入力する必要がありますか?
body_links = re.findall(r'<a>()</a>', str(resp1Data))
代わりにpythonのbeautifulsoupパッケージを使用してください。 Webコンテンツの解析に非常に便利です。
例:
from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a><span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print a['href']
これはあなたに与えられたHTMLからすべてのハイパーリンクを提供します。 は、これはあなたが探しているコードがある
ホープ:
re.findall(r'href="(.+?)"', str(resp1Data))
これは直接href=
後と""
の間にすべてのものと一致しました。 .
は「任意の文字」を表し、「1回以上の出現」については+
、「非欲張り」の場合は?
を意味し、可能な限り短い一致が使用されます。
正規表現を読んでください。これはかなり基本的で重要なものです。
文書を読み、試してみてください。 'href = \ "{1} \"'のようになります – GRAYgoose124
テキストのイメージではなく、リテラルテキストを貼り付けてください。 – PaulMcG