2
現在、number_of_pagesという変数をプリセットして、特定のウェブサイトのすべてのページを削っています。この変数のプリセットは、わからない新しいページが追加されるまで機能します。たとえば、以下のコードは3ページ分ですが、Webサイトには現在4ページあります。BeautifulSoupを使用してすべての次のリンクを見つける方法
base_url = 'https://securityadvisories.paloaltonetworks.com/Home/Index/?page='
number_of_pages = 3
for i in range(1, number_of_pages, 1):
url_to_scrape = (base_url + str(i))
私はBeautifulSoupを使用して、ウェブサイト上の次のすべてのリンクを見つけ出してスクレイプしたいと考えています。次のコードでは、2番目のURLは検索されますが、3番目または4番目のURLは検索されません。それらを掻く前にすべてのページのリストを作成するにはどうすればよいですか?
base_url = 'https://securityadvisories.paloaltonetworks.com/Home/Index/?page='
CrawlRequest = requests.get(base_url)
raw_html = CrawlRequest.text
linkSoupParser = BeautifulSoup(raw_html, 'html.parser')
page = linkSoupParser.find('div', {'class': 'pagination'})
for list_of_links in page.find('a', href=True, text='next'):
nextURL = 'https://securityadvisories.paloaltonetworks.com' + list_of_links.parent['href']
print (nextURL)
ありがとうございましたAlecxe !!あなたのコードはうまくいった!! –