Python - Scrapy - URLのリストを取得してクロールするクローラを作成する

URLのリストを取得してクロールするパッケージ "Scrapy"でスパイダーを作成しようとしています。私は答えのためにstackoverflowを検索しましたが、問題を解決する何かを見つけることができませんでした。でPython - Scrapy - URLのリストを取得してクロールするクローラを作成する

：私は、印刷self.start_urlsながら、印刷された以下の情報を取得

Spider = Try(urls = [r"https://www.example.com"]) 
process = CrawlerProcess({ 
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' 
}) 

process.crawl(Spider) 
process.start()

：

class Try(scrapy.Spider): 
    name = "Try" 

    def __init__(self, *args, **kwargs): 
     super(Try, self).__init__(*args, **kwargs) 
     self.start_urls = kwargs.get("urls") 
     print(self.start_urls) 

    def start_requests(self): 
     print(self.start_urls) 
     for url in self.start_urls: 
      yield Request(url , self.parse) 

    def parse(self, response): 
     d = response.xpath("//body").extract()

私はクモをクロールすると、次のよう

私のスクリプトがあります__init__機能が画面に表示されます： [r "https://www.example.com "]（スパイダーに渡される）。画面上に印刷されたstart_requests機能で

がある：なし

は、なぜ私はNoneを取得していないのですか？この問題にアプローチする別の方法はありますか？または私のクモのクラスに間違いがありますか？

ありがとうございました！

出典

2017-12-31 user9128464

リストの先頭にURLを保持するための別の名前を使用する - 'self.start_urls'は' scrapy'によって使用されるので、それらを削除できます。私はあなたが '__init__'の' self.start_urls'にURLを入れたらそれを使うのだろうかと思っています。おそらくそれを使い、 'start_requests'を使う必要はありませんか？ – furas

'process_closed'は、' from_crawler'を呼び出すときにパラメータなしで新しいTryオブジェクトを作成します。 Scrapy Source CodeのCrawlerクラスを参照してください。 https://github.com/scrapy/scrapy/blob/master/scrapy/crawler.py#L101-L102 – matiskay

私は

process.crawl(Try, urls=[r"https://www.example.com"])

を実行すると、私は期待どおり、それはTryへurlsを送ります。さらに私はstart_requestsは必要ありません。

import scrapy 

class Try(scrapy.Spider): 

    name = "Try" 

    def __init__(self, *args, **kwargs): 
     super(Try, self).__init__(*args, **kwargs) 
     self.start_urls = kwargs.get("urls") 

    def parse(self, response): 
     print('>>> url:', response.url) 
     d = response.xpath("//body").extract() 

from scrapy.crawler import CrawlerProcess 

process = CrawlerProcess({ 
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' 
}) 
process.crawl(Try, urls=[r"https://www.example.com"]) 
process.start()

しかし、私は

spider = Try(urls = ["https://www.example.com"]) 

process.crawl(spider)

を使用している場合、それはurlsなしTry新を実行して、リストが空であるように、それが見えます。

出典

2017-12-31 15:08:32 furas

私は、process.crawlでスパイダークラスを使用し、そこにurlsパラメータを渡すことをお勧めします。

import scrapy 
from scrapy.crawler import CrawlerProcess 
from scrapy import Request 


class Try(scrapy.Spider): 
    name = 'Try' 

    def __init__(self, *args, **kwargs): 
     super(Try, self).__init__(*args, **kwargs) 
     self.start_urls = kwargs.get("urls") 

    def start_requests(self): 
     for url in self.start_urls: 
      yield Request(url , self.parse) 

    def parse(self, response): 
     d = response.xpath("//body").extract() 

process = CrawlerProcess({ 
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' 
}) 

process.crawl(Try, urls=[r'https://www.example.com']) 
process.start()

出典

2017-12-31 15:08:53 matiskay

だから、誰かがself.start_urlsの値が代入した後、どこに行くか知っていますか？

process.crawl（Try）を使用する場合 - スクラップは新しいTryスパイダーオブジェクトを作成しますか？

出典

2018-01-05 12:27:46 user9128464

Python - Scrapy - URLのリストを取得してクロールするクローラを作成する

答えて

関連する問題