scrapyパイソン再帰的

私はスタートページからすべてのhrefを見つけるscrapyを行うと、印刷しようとしているが、HREF参照を検索、最初のものだけ。scrapyパイソン再帰的

出典

2017-01-26 florecitas

'allowed_domains'の末尾にある'/'を削除できますか？（ 'self.allowed_domains = ['www.masterdatascience.es']'） –

-2

あなたは以下/ hrefの

出典

2017-01-26 10:13:01 arno

@コードは、ページ上のすべてのhrefを出力します//ためにあなたのxpathを変更してみてください：

import scrapy 

class stackoverflow20170129Spider(scrapy.Spider): 
    name = "stackoverflow20170129" 
    allowed_domains = ["masterdatascience.es"] 
    start_urls = ["http://www.masterdatascience.es/",] 

    def parse(self, response): 
     for href in response.xpath('//a/@href'): 
      url = response.urljoin(href.extract()) 
      print url 
#   yield scrapy.Request(url, callback=self.parse_dir_contents)

も一つのこと：WWWをドロップする価値があります。 "allowed_domains"から - あなたがウェブサイトに深く入り、anewpage.masterdatascience.esなどのページにアクセスし始めたら、wwwを含む。そのページをブロックします

出典

2017-01-29 22:25:02 nevster

答えて

関連する問題