# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
class InfoSpider(scrapy.Spider):
name = 'info'
allowed_domains = ['womenonlyconnected.com']
start_urls =['http://www.womenonlyconnected.com/socialengine/pageitems/index']
def parse(self, response):
urls = response.xpath('//h3/a/@href').extract()
for url in urls:
absolute_url = response.urljoin(url)
yield Request(absolute_url , callback = self.parse_page)
def parse_page(self , response):
pass
を使用しては、私のコードは、このコードを使用している私は、ページ PAGの「もっと見る」の後にすべてのリンクをこするに助けを必要とするだけで、最初の24個のリンクをこすりすることができますどこの最初のページのための1とN開始などScrapy:スクレイプWebページ上の「次」の結果をここにscrapy
http://www.womenonlyconnected.com/socialengine/pageitems/index?page=N
:URLはこのURLを使ってページ付けができることを調査の少しそれを見つけることができた後 http://www.womenonlyconnected.com/socialengine/pageitems/index
@TomášLinhart、私もそのサイトをチェックしました。これは最後のページ 'http://www.womenonlyconnected.com/socialengine/pageitems/index?page = 47'です。 – SIM
@Shahin記事が追加されると、おそらく時間の経過とともにページ数が変化するため、これは実際には一般的な解決策ではありません。本当にジェネリックな解決策は、例えばヘッドレスブラウザを使用して提案されたような(ヘッドレス)スプラッシュ。 –