2017-07-06 1 views
-3
import urllib2 

import BeautifulSoup 

request = urllib2.Request("https://adexchanger.com/searchresults/?q=digital%20marketing") 

response = urllib2.urlopen(request) 

soup = BeautifulSoup.BeautifulSoup(response) 

for a in soup.findAll('a'): 

    if 'digital marketing' in a['href']: 

    print a 
+0

このサイトにアクセスできないというエラーメッセージが表示されます –

+0

このウェブサイトからリンク(デジタルマーケティングという用語を含む)を抽出しようとしています。この問題に近づく方法はありますか? – Rrj17

+0

ヘッダーのブラウザチェックでアクセスできますが、 –

答えて

0

サイトどうやらブロックロボットやボット/ Mozzilaヘッダーはブラウザのように動作します。以下のコードを試してみてください。

>>> headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} 
>>> req = urllib2.Request('https://adexchanger.com/searchresults/?q=digital%20marketing', None, headers) 
>>> urllib2.urlopen(req) 
<addinfourl at 140245639765816 whose fp = <socket._fileobject object at 0x7f8d7b865250>> 
+0

試しました。これは出力でした - KeyError: 'href' – Rrj17

+0

存在しないhref属性にアクセスしようとしています。ブラウザでWebページを開き、要素を調べて適切な属性を使用してスクレイプしようとすることをお勧めします。あなたは今403エラーを取得していないのですか? –

+0

私は403エラーを取得しませんでした。要素をよく調べる。ありがとう! – Rrj17

関連する問題