0
私のScrapy出力ファイルでは、いくつかのアイテムが見つからないので、それらのページが3番目のルールとして手動で追加されています。Scrapルールを追加しましたが、それ以上のアイテムを削っていません
class KjvSpider(CrawlSpider):
name = 'kjv'
start_urls = ['file:///G:/OEBPS2/bible-toc.xhtml']
rules = (
Rule(LinkExtractor(allow=r'OEBPS'), follow=True), # 1st rule
Rule(LinkExtractor(allow=r'\d\.xhtml$'),
callback='parse_item', follow=False), # 2nd rule
Rule(LinkExtractor(allow=[r'2-jn.xhtml$', r'jude.xhtml$', r'obad.xhtml$', r'philem.xhtml$'],),
callback='parse_item', follow=False), # 3rd rule
)
私は(2nd rule
をコメントアウト)1st rule
と3rd rule
を有効にした場合、私は全体のアイテム(約2000 itmes)正しく4つの不足している項目をダウンロードすることはできませんが。
しかし、3つのルールをすべて有効にすると、見つからないアイテムがまだ見つからないことがわかります。 (つまり、3rd rule
を追加しても差はありません)
なぜルールが機能しないのか分かりません。
どのようなご提案も歓迎いたします。前もって感謝します。