私は掻爬のサイトを傷病にしようとしています。 しかし私はその国から来ていないので、ページエラー404にリダイレクトしています。 プロキシを使用する場合、私は同じです。 マイコード:国に縛られたウェブサイトを掻きする方法
# -*- coding: utf-8 -*-
import scrapy
from v4.items import Product
class AcerOfficeworksAuSpider(scrapy.Spider):
name = "acer_officeworks_au_py"
url = 'https://www.officeworks.com.au/shop/SearchDisplay?searchTerm=acer&storeId=10151&langId=-1&pageSize=24&beginIndex=0&sType=SimpleSearch&resultCatEntryType=2&showResultsPage=true&searchSource=Q&pageView='
def start_requests(self):
yield scrapy.Request(self.url, self.parse, meta={'proxy': 'http://97.77.104.22:3128'})
def parse(self, response):
print response
結果:
2017-03-23 12:49:29 [scrapy] DEBUG: Redirecting (302) to <GET https://wc-prod-joomla.s3.amazonaws.com/404/404.html> from <GET https://www.officeworks.com.au/shop/SearchDisplay?searchTerm=acer&storeId=10151&langId=-1&pageSize=24&beginIndex=0&sType=SimpleSearch&resultCatEntryType=2&showResultsPage=true&searchSource=Q&pageView=>
2017-03-23 12:49:34 [scrapy] DEBUG: Crawled (200) <GET https://wc-prod-joomla.s3.amazonaws.com/404/404.html> (referer: None)
<200 https://wc-prod-joomla.s3.amazonaws.com/404/404.html>
2017-03-23 12:49:34 [scrapy] INFO: Closing spider (finished)
レスポンス、プロキシの使用がカール場合:私はそれを動作させるために、まだ試すことができますどのような
HTTP/1.1 200 Connection established
HTTP/1.1 302 Security Redirect
Cache-Control: no-cache
Expires: 0
Location: https://wc-prod-joomla.s3.amazonaws.com/404/404.html
Pragma: no-cache
transfer-encoding: chunked
Connection: keep-alive
?
どこですか?元のURLはスイスから私のためにうまくロードされます。ブラウザでURLを読み込むことはできますか? –
@MartinBonner私はウクライナ出身です。 vpnを使用しているブラウザでは、読み込み中です。 – SVSerhii
クロムを使用している場合は、[メニュー>その他のツール>開発者ツール]を使用し、[ネットワーク]タブを選択して、実行中のすべてのリクエストを表示します。私は他のブラウザも同様のものだと確信しています。あなたは明らかにあなたのカール/治療要求にvpnを使用していることを確認する必要があります。私はwww.iplocation.netからフェッチすることから始め、あなたが戻ってくるものを見ます。 –