私はセレニウム+ファントムを使用してWebスクレイピングのプロキシを設定しようとしています。私はPythonを使用しています。python proxy-authのphantomjs + seleniumが動作しません
私は、phantomjsにバグがあり、proxy-authが動作しないことが多くの場所で分かっています。
page.customHeaders = { 'プロキシ許可': '基本 '+ btoa(' USERNAME:PASSWORD')}
from selenium.webdriver.common.proxy import * from selenium import webdriver from selenium.webdriver.common.by import By service_args = [ '--proxy=http://fr.proxymesh.com:31280', '--proxy-auth=USER:PWD', '--proxy-type=http', ] driver = webdriver.PhantomJS(service_args=service_args) driver.get("https://www.google.com") print driver.page_source
プロキシメッシュは、代わりに以下を使用することを提案します。
しかし、私はそれをどのようにPythonに変換するのか分かりません。
これは私が現在持っているものです。
from selenium import webdriver
import base64
from selenium.webdriver.common.proxy import *
from selenium import webdriver
from selenium.webdriver.common.by import By
service_args = [
'--proxy=http://fr.proxymesh.com:31280',
'--proxy-type=http',
]
headers = { 'Proxy-Authorization': 'Basic ' + base64.b64encode('USERNAME:PASSWORD')}
for key, value in enumerate(headers):
webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value
driver = webdriver.PhantomJS(service_args=service_args)
driver.get("https://www.google.com")
print driver.page_source
をしかし、それは動作しません。
どのように私はこれを動作させるための任意の提案?
あなたはセレン及びPhantomJSを使用する必要がありますか? Webスクレイピングの場合、より柔軟なオプションが必要です。 –
私はjavscriptウェブサイトを擦る必要があります。他に何が使えるのかの提案はありますか? – chris
この場合、より良い提案はありません。 –