私は例を得た治療でリンクパターンがどのように働くのか苦労しています。誰かに書き方を教えてもらえますか?私は治療のためのリンクパターンを書く方法を理解していません
def parse(self, response):
hxs = scrapy.Selector(response)
links = hxs.xpath("//a/@href").extract()
#We stored already crawled links in this list
crawledLinks = []
#Pattern to check proper link
linkPattern = re.compile("^(?:ftp|http|https):\/\/(?:[\w\.\-\+]+:{0,1}[\w\.\-\+]*@)?(?:[a-z0-9\-\.]+)(?::[0-9]+)?(?:\/|\/(?:[\w#!:\.\?\+=&%@!\-\/\(\)]+)|\?(?:[\w#!:\.\?\+=&%@!\-\/\(\)]+))?$")
for link in links:
# If it is a proper link and is not checked yet, yield it to the Spider
if linkPattern.match(link) and not link in crawledLinks:
crawledLinks.append(link)
yield Request(link, self.parse)
item = MS_homeItem()
item['name'] = hxs.xpath('//*[@id="product-detail-page"]/li[4]/div/div[2]/h1').extract()
yield item
すべてのヘルプは素晴らしいだろうおかげでジェームズ
自動的に重複したURLをフィルタリングします。 – Steve