2017-07-26 1 views
1

私はCloudFlareのを使用して、ウェブサイトからデータをこすりすることができません。 は、私はいつもurllib.error.HTTPErrorます:HTTPエラー503:サービス一時的に利用できない は、あなたは私のCloudFlareの保護を渡す方法を示すことができますか?スクレイプ、

from bs4 import BeautifulSoup 
from urllib.request import Request, urlopen 
#Website url was changed to ####, because it is secret 
url = '#######' 
hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 
    'Accept-Encoding': 'none', 
    'Accept-Language': 'en-US,en;q=0.8', 
    'Connection': 'keep-alive'} 

req = Request(url,headers=hdr) 
page = urlopen(req) 
soup = BeautifulSoup(page, "lxml") 

print(soup) 

あなたは私のすべてのステップを説明することができ、時には

+0

'インポート要求。 page = requests(url).content'は、何かもっと精巧なことを行う必要なしに、しばしば動作します。 –

+0

@BillBell、こんにちは。サンプルを私に見せてもらえますか? –

答えて

0

はurllibはがない場合でもが動作する要求してください。

import requests 
import bs4 
url = ... a secret 
page = requests(url).content 
soup = bs4.BeautifulSoup(page, 'lxml') 

これは、私はセレンをしようと動作しない場合。 StackOverflowでここで使用する方法の例がたくさんあります。私はあなたが働きたいと思うURLがないので、提案をすることはできません。

+0

Cfscrapeライブラリは私を助けた –

+0

興味深い!私はそれを試さなければならない。 –

関連する問題