各URLのすべてのアイテムを保存する方法

このようなURLリストを追加します。パイプラインに行くと、urlリストのすべてのアイテムがprocess_itemに渡されるようです。各URLのすべてのアイテムを保存する方法

特定のURLに従ってアイテムを分割する方法はありますか？たとえば、1つのURLから1つのファイルに項目を保存する場合などです。

class MySpider(scrapy.Spider): 
    name = 'example.com' 
    allowed_domains = ['example.com'] 
    start_urls = [ 
     'http://www.example.com/1.html', 
     'http://www.example.com/2.html', 
     'http://www.example.com/3.html', 
    ]

出典

2016-10-13 netcaf

私はあなたの仕事を簡単にする2つの異なる部分であなたの問題を制動することをお勧めします。私はそれが1つで行くことができると確信していますが、なぜそれを複雑にする？すべての一意のURLに個別のファイルを作成し、そこにデータを格納する場合 - >これはクローラを実行して1つのファイルに格納し、カスタムのPythonスクリプトを作成してファイルを個々のファイルに分割します –

アイテムを生成する前にアイテムにref_urlを追加し、パイプラインでチェックします。他の解決策もありますが、これは私が推測する最も直接的なものです。

出典

2016-10-13 12:36:08

各URLのすべてのアイテムを保存する方法

答えて

関連する問題