2016-05-21 19 views
0

期限切れのドメインデータリストの"https://www.expireddomains.net/deleted-com-domains/" をスクレイプしようとしています。治療データテーブルの抽出

私は常に次の

class ExpiredSpider(BaseSpider): 

    name = "expired" 
    allowed_domains = ["example.com"] 
    start_urls = ['https://www.expireddomains.net/deleted-com-domains/'] 

    def parse(self, response): 
     log.msg('parse(%s)' % response.url, level = log.DEBUG) 
     rows = response.xpath('//table[@class="base1"]/tbody/tr') 
     for row in rows: 
      item = DomainItem() 
      item['domain'] = row.xpath('td[1]/text()').extract() 
      item['bl'] = row.xpath('td[2]/text()').extract() 
      yield item 

のための空の項目フィールドは、誰かが間違っているものを指摘することができますか?ありがとう。

答えて

0

最初の注意点として、あなたは第二に、.extract()方法はリストではなく、単一の要素を返す代わりに

を推奨されていませんBaseSpiderのscrapy.Spider使用する必要があります。 これは、項目抽出が

あなたのpython loggingライブラリに組み込まれて使用する必要があり、また

item['domain'] = row.xpath('td[1]/text()').extract_first() 
item['bl'] = row.xpath('td[2]/text()').extract_first() 

のようになります方法です

import logging 
logging.debug("parse("+response.url+")")