は私のスパイダーではありません。ここでscrapy:なぜここにparse_item機能のない使用
import scrapy
import urlparse
from scrapy.http import Request
class BasicSpider(scrapy.Spider):
name = "basic2"
allowed_domains = ["cnblogs"]
start_urls = (
'http://www.cnblogs.com/kylinlin/',
)
def parse(self, response):
next_site = response.xpath(".//*[@id='nav_next_page']/a/@href")
for url in next_site.extract():
yield Request(urlparse.urljoin(response.url,url))
item_selector = response.xpath(".//*[@class='postTitle']/a/@href")
for url in item_selector.extract():
yield Request(url=urlparse.urljoin(response.url, url),
callback=self.parse_item)
def parse_item(self, response):
print "+=====================>>test"
が出力されます。 2016年8月12日14時46分20秒[scrapy] INFO :Spider opened
2016-08-12 14:46:20 [scrapy]情報:クロールされた0ページ(0ページ/分)、0個のアイテム(0アイテム/分)
2016-08-12 14: 46:20 [scrapy] DEBUG:Telnetコンソールは
127.0.0.1:6023にリスニング2016-08-12 14:46:20 DEBUG:Crawled(200)http://www.cnblogs.com/robots.txt>(リファラー:なし)
2016-08-12 14:46: 20 [scrapy] DEBUG:Crawled(200)http://www.cnblogs.com/kylinlin/(referer:None)
2016-08-12 14:46:20 [scrapy] DEBUG: www.cnblogs.com ':http://www.cnblogs.com/kylinlin/default.html?page=2>
2016-08-12 14:46:20 [治療]情報:閉鎖スパイダー(終了)
2016年8月12日14時46分20秒[scrapy] INFO:ダンプScrapy統計:
{ 'ダウンローダ/ request_bytes':445、
'ダウンローダ/れたrequest_count':2、
'ダウンローダ/ request_method_count/GET' :2、
'ダウンローダ/ response_bytes':5113、
'ダウンローダ/ response_count':2、
'ダウンローダ/ response_status_count/200':2、
'finish_reason': '終了'、
'finish_timeに':datetime.datetimeの(2016、8、12、6、46、20、420000)、
'log_count/DEBUG':4、
'log_count/INFO':7、
'オフサイト/ドメイン':1、
「オフサイト/ filtered ':11,
' request_depth_max ':1、
' response_received_count ':2、
' sc heduler /デキュー ':1、
'スケジューラ/デキュー/メモリ':1、
'スケジューラ/エンキュー':1、
'スケジューラ/エンキュー/メモリ':1、
'のstart_time':datetime.datetimeの(2016、8、12、6、46、20、131000)}
2016年8月12日夜2時46分20秒[scrapy]情報:スパイダーが閉じ(完成)
なぜページが0であるクロール? 「テスト+ ===================== >>」のように何も出力されない理由を私は理解できません。 誰かが私を助けてもらえますか?
ありがとう –