私は治療に慣れていて、いくつかのサイトからクロールしようとしましたが、そこからいくつかの画像を取得することはできませんでした。例えばページあたりのアイテム数を超えてクロールすることはできません
、次のコードでhttp://shop.nordstrom.com/c/womens-dresses-newのために -
def parse(self, response):
for dress in response.css('article.npr-product-module'):
yield {
'src': dress.css('img.product-photo').xpath('@src').extract_first(),
'url': dress.css('a.product-photo-href').xpath('@href').extract_first()
}
私は6つの製品を得ました。私は、
def parse(self, response):
for dress in response.css('div.cycle-image-0'):
yield {
'image-url': dress.xpath('.//img/@src').extract_first(),
}
私は12で私はすべての「次」のページをクロールするためにそれを変更してもおよそ100
を期待していました - 私は、次のコードでURL https://www.renttherunway.com/products/dressについて66
を期待しますページごとに同じ番号が付いていますが、すべてのページを正常に通過しました。
私は人々が前にこれを見ている必要がありますので、私はすべてのサイトで同じ問題に遭遇するだろうと想像が、への参照を見つけることができない別のUSER_AGENT、無効クッキー、5
のDOWNLOAD_DELAYを試してみましたそれ。
私には何が欠けていますか?