治療データテーブルの抽出

期限切れのドメインデータリストの"https://www.expireddomains.net/deleted-com-domains/" をスクレイプしようとしています。治療データテーブルの抽出

私は常に次の

class ExpiredSpider(BaseSpider): 

    name = "expired" 
    allowed_domains = ["example.com"] 
    start_urls = ['https://www.expireddomains.net/deleted-com-domains/'] 

    def parse(self, response): 
     log.msg('parse(%s)' % response.url, level = log.DEBUG) 
     rows = response.xpath('//table[@class="base1"]/tbody/tr') 
     for row in rows: 
      item = DomainItem() 
      item['domain'] = row.xpath('td[1]/text()').extract() 
      item['bl'] = row.xpath('td[2]/text()').extract() 
      yield item

のための空の項目フィールドは、誰かが間違っているものを指摘することができますか？ありがとう。

出典

2016-05-21 Bob

最初の注意点として、あなたは第二に、.extract()方法はリストではなく、単一の要素を返す代わりに

を推奨されていませんBaseSpiderのscrapy.Spider使用する必要があります。これは、項目抽出が

が

あなたのpython loggingライブラリに組み込まれて使用する必要があり、また

item['domain'] = row.xpath('td[1]/text()').extract_first() 
item['bl'] = row.xpath('td[2]/text()').extract_first()

のようになります方法です

import logging 
logging.debug("parse("+response.url+")")

出典

2016-05-21 15:42:48

治療データテーブルの抽出

答えて

関連する問題