インターネットでscrapy(ver:1.1.1)で治療をしています。上記のコードで302リダイレクト後に最初のリクエストURLを取得するにはどうすればいいですか?
class Link_Spider(scrapy.Spider):
name = 'GetLink'
allowed_domains = ['example_0.com']
with codecs.open('link.txt', 'r', 'utf-8') as f:
start_urls = [url.strip() for url in f.readlines()]
def parse(self, response):
print response.url
、 'start_urls' タイプがリストである:これは私が直面しているものです
start_urls = [
example_0.com/?id=0,
example_0.com/?id=1,
example_0.com/?id=2,
] # and so on
scrapyの実行は、デバッグ情報が私に言った:
[scrapy] DEBUG: Redirecting (302) to (GET https://example_1.com/?subid=poison_apple) from (GET http://example_0.com/?id=0)
[scrapy] DEBUG: Redirecting (301) to (GET https://example_1/ture_a.html) from (GET https://example_1.com/?subid=poison_apple)
[scrapy] DEBUG: Crawled (200) (GET https://example_1/ture_a.html) (referer: None)
「start_url」の「http://example_0.com/?id= ***」のURLが「https://example_1/ture_a.html」のURLとペアになっていることを確認するにはどうすればよいですか?誰でも私を助けることができますか?
を私がしようと試み、しかし、「印刷response.request.urlは」動作しませんでしたで、単に「https://example_1/ture_a.html」と表示されます。応答は最後のデバッグ情報であるため、最初のデバッグ情報ではなく "crawled(200)"となります。 "redirecting(302)" – xie