私は治療を学んでおり、私は小さなプロジェクトを持っています。スクラップで重複を処理する方法は?
def parse(self, response):
links = LinkExtractor().extract_links(response)
for link in links:
yield response.follow(link, self.parse)
if (some_condition):
yield {'url': response.url} # Store some data
私はこのページにいくつかのデータがある場合、すべてのリンクを作成してデータを保存します。例えば、http://example.com/some_page
を処理した場合、次回はスキップします。私の仕事は次回もそれを処理することです。このページが既に処理されていることを知りたいので、この場合は他のデータを保存する必要があります。
それは仕事ですが、私がこれを好きなら外部リンクもクロールするように見えます。だから私はそれらを自分でフィルターする必要がありますか? – GhostKU
'dont_filter'は重複要求をフィルタリングするだけです。 –