私はPythonでSelenium Webdriverを使ってWebスクレイピングを行っています。Proxyです。Selenium Webdriver/Beautifulsoup + Web Scraping + Error 416
このスクレイピングを使用して、単一サイトの10kページ以上をブラウズしたいと考えています。
問題はこのプロキシを使用しています。私は一度だけリクエストを送信できます。私はこのサイトの同じリンクまたは別のリンクで別のリクエストを送信しているときに、416エラー(ファイアウォールを使ったブロックIPの種類)を1-2時間受け取ります。
注:私はこのコードですべての正常なサイトを削ることができますが、このサイトには擦り傷を防ぐセキュリティがあります。
ここはコードです。
profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference(
"network.proxy.http", "74.73.148.42")
profile.set_preference("network.proxy.http_port", 3128)
profile.update_preferences()
browser = webdriver.Firefox(firefox_profile=profile)
browser.get('http://www.example.com/')
time.sleep(5)
element = browser.find_elements_by_css_selector(
'.well-sm:not(.mbn) .row .col-md-4 ul .fs-small a')
for ele in element:
print ele.get_attribute('href')
browser.quit()
任意の解決策??