htmlをクロールするスパイダーを作成したいと思います。私はrequests
とbeautifulsoup
を使用しますが、私はbeautifulsoupがページ全体を解析できないことを知りました。代わりに、Beautifulsoupはちょうどその半分を解析します。ここで が私のコードです:Beaultifusoupがすべてのhtmlを解析できません
import requests
from bs4 import BeautifulSoup as bs
urls = ['http://www.bishefuwu.com/developer/transmit','http://www.bishefuwu.com/developer/transmit/index/p/2.html']
html = requests.get(urls[0]).content
soup = bs(html,'lxml')
table = soup.find('tbody')
trs = table.find_all('tr')
for tr in trs:
r = tr.find_all('td')[:3]
for i in map(lambda x:x.get_text(),r):
print i
と、これはthe origin pageで、行を持って、「13107」 が、私のクモはそれの半分を持って、私の行は「13192」で停止します。 テストのために、私はrequests
で要求された原点htmlを手動で保存しました。このエラーはBeautifulsoupにあります。 どうすれば解決できますか? ありがとう
多くの点を気に入ってください! – ucag