2017-07-01 63 views
0

https://www.size.co.uk/featured/footwear/に移動してコンテンツをスクラブするスクリプトを作成したいのですが、スクリプトを実行するとアクセスが拒否されました。ここでは、コードは次のようになります。スクレイピング中にアクセスが拒否された

from urllib import urlopen 
from bs4 import BeautifulSoup as BS 
url = urlopen('https://www.size.co.uk/') 
print BS(url, 'lxml') 

出力は

<html><head> 
<title>Access Denied</title> 
</head><body> 
<h1>Access Denied</h1> 

You don't have permission to access "http://www.size.co.uk/" on this server. 
<p> 
Reference #18.6202655f.1498945327.11002828 
</p></body> 
</html> 

私は他のウェブサイトでそれをしようとすると、コードが正常に動作しても、私はセレンを使用する場合、何も起こりませんが、私はまだ方法を知りたいですSeleniumを使用せずにこのエラーを回避します。私は、同じアクセス拒否エラーを得たhttp://www.footpatrol.co.uk/shopのように別のウェブサイト上でセレンを使用する場合でも、ここでfootpatrolのコードは次のとおりです。

from selenium import webdriver 

driver = webdriver.PhantomJS('C:\Users\V\Desktop\PY\web_scrape\phantomjs.exe') 
driver.get('http://www.footpatrol.com') 
pageSource = driver.page_source 
soup = BS(pageSource, 'lxml') 
print soup 

出力は次のとおりです。

にユーザーエージェントヘッダーを設定し
<html><head> 
<title>Access Denied</title> 
</head><body> 
<h1>Access Denied</h1> 

You don't have permission to access "http://www.footpatrol.co.uk/" on this 
server.<p> 
Reference #18.6202655f.1498945644.110590db 


</p></body></html> 
+3

ブラウザのように見える。 –

+0

@Alenあなたはセレンを使用することを意味しますか? –

+0

あなたは何のpythonですか? –

答えて

2
import requests 
from bs4 import BeautifulSoup as BS 

url = 'https://www.size.co.uk/' 
agent = {"User-Agent":'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'} 
page = requests.get(url, headers=agent) 
print (BS(page.content, 'lxml')) 
+0

それは働いた、ありがとう。 –

関連する問題