1
処理のためにファイルをscrapyに入力しようとしています。しかし、なぜファイル形式で入力するのが問題になっているのか分かりません。ここに私が試したものです:ファイルに問題が発生しました。
with open("url.txt","r") as f:
DOMAIN = [u.strip() for u in f.readlines()]
print DOMAIN
URL = 'http://%s' % DOMAIN
class MySpider(scrapy.Spider):
name = "emailextractor"
allowed_domains = [DOMAIN]
start_urls = [
URL
]
入力ファイルは、この形式である:
emaxple.com
example.net
example.org.... etc
私が使用しているフォーマットでscrapyに入力を与える方法。私はhttp://
をすべてのURLに追加しようとしています。ファイルもGB単位で非常に大きいです。だから私がすべき最も良いことは何ですか?親切に、助けてください。
この質問は私のために動作しませんでした:Pass input file to scrapy containing a list of domains to be scraped