現在、製品のLINKを掻き集め、私のスクリプトをubuntuサーバに展開しています。このサイトでは、User-Agentとurlヘッダーに関連するものを指定する必要があります。私はUbuntuのを使用してとUbuntu上のプロキシサーバに接続していたように、私の「HDR」変数このスクリプト内で何をする必要があります:Ubuntuのヘッダ、ユーザエージェント、Url要求
import urllib2
from bs4 import BeautifulSoup
import requests
from lxml import etree
import smtplib
import urllib2, sys
url = "http://www.sneakersnstuff.com/en/product/22422/adidas-superstar-80s"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(url,headers=hdr)
page = urllib2.urlopen(req)
このスクリプトは、私は希望がわからない、私のコンピュータ剥げ上だけで正常に動作しますubuntuのブラウザまたはユーザエージェントとして指定します。
コード:
import urllib2
from bs4 import BeautifulSoup
import requests
from lxml import etree
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
import urllib2, sys
url = "http://www.sneakersnstuff.com/en/product/22422/adidas-superstar-80s"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(url,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page, "lxml")
result = soup.find_all("span", {"class":"availability"})
は、エラーコードを返します。urllib2.HTTPError:HTTPエラー403: 禁止しかし、これが唯一ではないあなたがする必要はありませんローカルマシン
つ ' 'はPython-urllibは/ 2.1'' – greybeard