ファイルに問題が発生しました。

処理のためにファイルをscrapyに入力しようとしています。しかし、なぜファイル形式で入力するのが問題になっているのか分かりません。ここに私が試したものです：ファイルに問題が発生しました。

with open("url.txt","r") as f: 

    DOMAIN = [u.strip() for u in f.readlines()] 
    print DOMAIN 
    URL = 'http://%s' % DOMAIN 

class MySpider(scrapy.Spider): 
    name = "emailextractor" 
    allowed_domains = [DOMAIN] 
    start_urls = [ 
     URL 
    ]

入力ファイルは、この形式である：

emaxple.com 
example.net 
example.org.... etc

私が使用しているフォーマットでscrapyに入力を与える方法。私はhttp://をすべてのURLに追加しようとしています。ファイルもGB単位で非常に大きいです。だから私がすべき最も良いことは何ですか？親切に、助けてください。
この質問は私のために動作しませんでした：Pass input file to scrapy containing a list of domains to be scraped

出典

2017-02-09 Jaffer Wilson

ファイル（または、あなたのstart_urlsリストに直接設定することはできません何か他のもの）からのURLに基づいて要求を生成したい場合は、あなたがscrapy.Spiderをオーバーライドする必要が's start_requestsあなた自身のスパイダーの方法。

class MySpider(scrapy.Spider): 
    name = "emailextractor" 

    def start_requests(self): 
     with open('urls.txt') as urls_file: 
      for url in urls_file: 
       yield scrapy.Request(url.strip(), callback=self.parse) 

    def parse(self, response): 
     # parse the pages that your spider downloaded and extract the data

：あなたは入力ファイルから読んでURLの要求を生成する必要がある。この方法では

出典

2017-02-09 18:19:44

答えて

関連する問題