0
このようなURLリストを追加します。パイプラインに行くと、urlリストのすべてのアイテムがprocess_itemに渡されるようです。各URLのすべてのアイテムを保存する方法
特定のURLに従ってアイテムを分割する方法はありますか?たとえば、1つのURLから1つのファイルに項目を保存する場合などです。
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
'http://www.example.com/3.html',
]
私はあなたの仕事を簡単にする2つの異なる部分であなたの問題を制動することをお勧めします。私はそれが1つで行くことができると確信していますが、なぜそれを複雑にする?すべての一意のURLに個別のファイルを作成し、そこにデータを格納する場合 - >これはクローラを実行して1つのファイルに格納し、カスタムのPythonスクリプトを作成してファイルを個々のファイルに分割します –