- "HTTPError（req.get_full_url（）、コード、MSG、HDRS、FP）urllib2.HTTPError上げる：禁止：HTTPエラー403" あなたはクロームを追加する必要がありますので

-3

import urllib2 

import BeautifulSoup 

request = urllib2.Request("https://adexchanger.com/searchresults/?q=digital%20marketing") 

response = urllib2.urlopen(request) 

soup = BeautifulSoup.BeautifulSoup(response) 

for a in soup.findAll('a'): 

    if 'digital marketing' in a['href']: 

    print a

出典

2017-07-06 Rrj17

このサイトにアクセスできないというエラーメッセージが表示されます –

このウェブサイトからリンク（デジタルマーケティングという用語を含む）を抽出しようとしています。この問題に近づく方法はありますか？ – Rrj17

ヘッダーのブラウザチェックでアクセスできますが、 –

サイトどうやらブロックロボットやボット/ Mozzilaヘッダーはブラウザのように動作します。以下のコードを試してみてください。

>>> headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} 
>>> req = urllib2.Request('https://adexchanger.com/searchresults/?q=digital%20marketing', None, headers) 
>>> urllib2.urlopen(req) 
<addinfourl at 140245639765816 whose fp = <socket._fileobject object at 0x7f8d7b865250>>

出典

2017-07-06 09:23:36

試しました。これは出力でした - KeyError： 'href' – Rrj17

存在しないhref属性にアクセスしようとしています。ブラウザでWebページを開き、要素を調べて適切な属性を使用してスクレイプしようとすることをお勧めします。あなたは今403エラーを取得していないのですか？ –

私は403エラーを取得しませんでした。要素をよく調べる。ありがとう！ – Rrj17

- "HTTPError（req.get_full_url（）、コード、MSG、HDRS、FP）urllib2.HTTPError上げる：禁止：HTTPエラー403" あなたはクロームを追加する必要がありますので

答えて

関連する問題