2017-01-26 27 views
0

私はスタートページからすべてのhrefを見つけるscrapyを行うと、印刷しようとしているが、HREF参照を検索、最初のものだけ。scrapyパイソン再帰的

+0

'allowed_domains'の末尾にある'/'を削除できますか? ( 'self.allowed_domains = ['www.masterdatascience.es']') –

答えて

-2

あなたは以下/ hrefの

0

@コードは、ページ上のすべてのhrefを出力します//ためにあなたのxpathを変更してみてください:

import scrapy 

class stackoverflow20170129Spider(scrapy.Spider): 
    name = "stackoverflow20170129" 
    allowed_domains = ["masterdatascience.es"] 
    start_urls = ["http://www.masterdatascience.es/",] 

    def parse(self, response): 
     for href in response.xpath('//a/@href'): 
      url = response.urljoin(href.extract()) 
      print url 
#   yield scrapy.Request(url, callback=self.parse_dir_contents) 

も一つのこと:WWWをドロップする価値があります。 "allowed_domains"から - あなたがウェブサイトに深く入り、anewpage.masterdatascience.esなどのページにアクセスし始めたら、wwwを含む。そのページをブロックします