0
LinkextractorがScrapyでどのように動作しているかを理解しようとしています。 は私が達成しようとしています:スタートページにLinkextractor in Scrapy、pageing and 2 depth link
を-follow改ページ
- 検索のURL、見つかったリンクページ-inパターン
内のすべてのリンクをスキャンし、そのページのマッチングの別のリンクをたどりますパターン等の改ページを見てからそのページをスクラップ
class ToScrapeMyspider(CrawlSpider):
name = "myspider"
allowed_domains = ["myspider.com"]
start_urls = ["www.myspider.com/category.php?k=766"]
rules = (
Rule(LinkExtractor(restrict_xpaths='//link[@rel="next"]/a'), follow=True),
Rule(LinkExtractor(allow=r"/product.php?p=\d+$"), callback='parse_spider')
)
def parse_spider(self, response):
Request(allow=r"/product.php?e=\d+$",callback=self.parse_spider2)
def parse_spider2(self, response):
#EXTRACT AND PARSE DATA HERE ETC (IS WORKING)
マイリンク:
< link rel="next" href="https://myspider.com/category.php?k=766&amp;s=100" >
まず私は
'strの' オブジェクトが
'iter' は何の属性を持っていません。しかし、私は、私は