1
特定のWebサイトをスクラップする際に問題を抱えています。たとえば、これは動作します:ウェブスクレイピング最大リトライが拒否されました
page = requests.get('https://wsj.com/', proxies=proxydict)
しかし、これにはないが:
page = requests.get('https://www.privateequityinternational.com/', proxies=proxydict)
私が唯一の1ページをこすりにもかかわらず、「最大再試行」というエラーが表示されます(そして前にそれを掻き取っていません)。
私は掻き落とさないが機能していないウェブサイトのヘッダーを使用しようとしました。私は使用すべき特定のヘッダーがありますか?上記の2番目のウェブサイト(www.privateequityinternational.com)を削り取るにはどうすればよいですか?ありがとうございました。
でヘッダパラメータを使用しますリクエスト '' headers = {あなたのヘッダdict} ''を取得します。私の場合、 '' page = requests.get( 'https://www.privateequityinternational.com/') ''これは動作しています –
私は最初のURLからSSHエラーを受け取ります 'SSLError:hostname 'wsj.co m' doesnどちらにもマッチしません。私のブラウザでgoogleから警告が出ますが、サイトは何ですか? –
wsj.comはウォールストリートジャーナル@Padraic – Essam