スクレイプ、

私はCloudFlareのを使用して、ウェブサイトからデータをこすりすることができません。は、私はいつもurllib.error.HTTPErrorます：HTTPエラー503：サービス一時的に利用できないは、あなたは私のCloudFlareの保護を渡す方法を示すことができますか？スクレイプ、

from bs4 import BeautifulSoup 
from urllib.request import Request, urlopen 
#Website url was changed to ####, because it is secret 
url = '#######' 
hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 
    'Accept-Encoding': 'none', 
    'Accept-Language': 'en-US,en;q=0.8', 
    'Connection': 'keep-alive'} 

req = Request(url,headers=hdr) 
page = urlopen(req) 
soup = BeautifulSoup(page, "lxml") 

print(soup)

あなたは私のすべてのステップを説明することができ、時には

出典

2017-07-26 Hero Guy

'インポート要求。 page = requests（url）.content'は、何かもっと精巧なことを行う必要なしに、しばしば動作します。 –

@BillBell、こんにちは。サンプルを私に見せてもらえますか？ –

はurllibはがない場合でもが動作する要求してください。

import requests 
import bs4 
url = ... a secret 
page = requests(url).content 
soup = bs4.BeautifulSoup(page, 'lxml')

これは、私はセレンをしようと動作しない場合。 StackOverflowでここで使用する方法の例がたくさんあります。私はあなたが働きたいと思うURLがないので、提案をすることはできません。

出典

2017-07-27 03:23:57

Cfscrapeライブラリは私を助けた –

興味深い！私はそれを試さなければならない。 –

答えて

関連する問題