ページのすべての内部Webリンクをクロールするためにscrapyを使用する必要があります。たとえば、www.stackovflow.com上のすべてのリンクがクロールされます。この作業コードソート:相対リンクを含む内部リンクのみをスキャンする
extractor = LinkExtractor(allow_domains=self.getBase(self.startDomain))
for link in extractor.extract_links(response):
self.registerUrl(link.url)
ただし、ベースドメインstackoverflow.com
が含まれていないような/meta
又はなどのすべての相対パスがクロールされていない、小さな問題があります。任意のアイデアをどのようにこれを修正するには?
scrapy.spidermiddlewares.offsite.OffsiteMiddleware https://doc.scrapy.org/en/latest/topics/spider-middleware.html#scrapy.spidermiddlewares.offsite.OffsiteMiddlewareこれを実行していませんか? –
ありがとう、私は明らかにいくつかの古い文書を見つけました –