4
のURL:Scrapyが重複したURLなどのユニークなURLのフィルタリングされ
- http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=1
- http://www.extrastores.com/en-sa/products/mobiles/smartphones-99500240157?page=2ユニークですが、scrapyはそれらをこする重複としてこれらのURLをフィルタリングしていません。
rules = ( Rule(LinkExtractor(restrict_css=('.resultspagenum'))), Rule(LinkExtractor(allow=('\/mobiles\/smartphones\/[a-zA-Z0-9_.-]*',),), callback='parse_product'), )`
私はこの動作を理解していない、誰かがしてください説明することができます?私は、これらのルールでCrawlSpiderを使用しています
同じコードが先週働いていた。 Scrapyバージョン1.3.0を使用
あなたはまだ訪問していないと確信していますか? – Fabricator
はい、何もウェブサイト全体から廃止されていません。すべてのリンクがフィルタリングされています。 – javed
はリンクが壊れている可能性がありますが、ページ上に何もデータがありませんか? – Verz1Lka