をsoup.find_allしようとしました:はsoup.selectを使用してURLを抽出し、これは、WebページのHTMLソースコードの一部です
<a href="http://www.abcde.com"> <img style="width:100%" src="/FileUploads/B/763846f.jpg" alt="search" title="search" /></a>
<a id="parts_img01" href="/Result?s=9&type=%E4&name=%E9"><h4 style=""><i class="fa f-c" aria-hidden="true"></i>apple</h4></a>
<a id="parts_img02" href="/Result?s=12&type=%E4&name=%E4"><h4 style=""><i class="fa f-c" aria-hidden="true"></i>banana</h4></a>
<a id="parts_img03" href="/Result?s=10&type=%E4&name=%E8"><h4 style=""><i class="fa f-c" aria-hidden="true"></i>cherry</h4></a>
<a id="parts_img07" href="/Result?s=14&type=%E4&name=%E8"><h4 style=""><i class="fa f-c" aria-hidden="true"></i>melon</h4></a>
そして、私は1つのように、私が欲しいのURLを抽出したいです/ Resultで始まる? 私はあなたが美味しいスープでスープ.find_allとスープ。セレクトを使用できることを学んだ。
soup.find_all:
icon = soup.find_all(id = re.compile("parts_img"))
と結果の一
が正常に印刷されます:<a href="/Result?s=9&type=%E4&name=%E9" id="parts_img01"><h4 style=""><i aria-hidden="true" class="fa f-c"></i>apple</h4></a>
soup.select:
for item in soup.select(".fa f-c"):
print(item['href'])
そして、これが機能していません...
おそらく私はHTMLからURLを直接抽出することができますか? は、私はちょうど印刷したい:
/Result?s=9&type=%E4&name=%E9
/Result?s=12&type=%E4&name=%E4
/Result?s=10&type=%E4&name=%E8
/Result?s=14&type=%E4&name=%E8
これは機能しています!ありがとうございました!私は別の質問があります、この場合、URLは完全ではありません。私はすべてのURLをwww.abcde.comに登録する必要がありますが、hrefはリストなので、次のようなエラーが発生します:strとnon-strの引数を混在させることはできません。私は途中でurljoinを使用します。 – Makiyo
urllib.parseライブラリを使用して、元のアンサーで絶対URLに相対URLを結合してください – djinn