2017-01-31 2 views
0

私はscrapを使用してespncricnfoウェブサイトから解説を破棄し、出力(items.csv)を空白にしました。これらは私のファイルです。スクラップを使用してスクレイピングをしている間に出力がありません

cricinfo.py(スパイダーファイル)

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 
from crictest.items import CrictestItem 


class MySpider(BaseSpider): 
    name = "cricinfo" 
    allowed_domains = ["espncricinfo.com/"] 
    start_urls = ["http://www.espncricinfo.com/champions-league-twenty20-2014/engine/match/763595.html?innings=1;view=commentary/"] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     rows = hxs.select('//td[@class="battingComms" and b]') 
     for row in rows: 
      item = CrictestItem() 
      item['overnum'] = row.select('b/text()').extract()[0] 
      item['overnumtext'] = row.select('b/following-sibling::text()').extract()[0] 
      yield item 

items.py

import scrapy 

    class CrictestItem(scrapy.Item): 
     overnum = scrapy.Field() 
     overnumtext = scrapy.Field() 

答えて

0

問題があるあなたはクロームでこれを使用して試すことができますあなたのxpath

: $ x( '// * [@ id = "commInnings"]/div [2]/div/div')

あなたのコード内

にコードを書き換える:私はコンソール

における任意の出力を得ることができない 行= hxs.select( '// TD [クラス@ = "battingComms"、およびb]')
関連する問題