フィルタリングするURLの特定の数を避けるためにdupefilterプロセスをどのようにリセットできるのか不思議でした。 は確かに、私が続く前にクローラーを何度もテストされ、そして今私は... scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1
それはいくつかのURLが重複してから訪問されていないことを私に言って続け ようなもので、それを実行することをどのように見て/編集/避けるために重複している?
- は間違いなくOKだろうそのクローラからすべてのURLを削除する
- はどこ重複URLを知って感謝したい(そして、私は編集できます?)フィルタリングされ
- ので、それはなりますループ
私は自分のコードを追加することができますが、それは一般的な質問ですので、何よりも混乱すると感じました。あなたがそれを必要とする場合だけで尋ねる:)
はどうもありがとうございました、
ありがとうございました!それは私にとっては少し複雑ですが、私はそれを理解します! – Bergenist