2012-02-15 18 views

答えて

12

スケジューラ内の重複するフィルタは、それがリセットされますことを意味し(すでに単一のクモのランで見られたURLをフィルタリングその後の実行で)。 IgnoreVistedItemsミドルウェアは、ランの間に状態を維持し、過去に見られた訪問URLを避けますが、最終アイテムURLのみを対象にして残りのサイトを再クロールすることができます(新しいアイテムを見つけるため)。

+0

これは素晴らしいことです。それは、実行の間にURLを再訪するのを避ける方法について私が気づいた別の質問でした。したがって、この答えは両方のクエリを解決します。ありがとう。 – Divick

+1

上記のスナッピースニペットにあるIgnoreVisitedItemsミドルウェアのソースを見ても、訪問したURLはファイルや永続的なストレージに保存されないように見えるので、修正を加えなければ実際には重複フィルタと同じように動作しますスケジューラ – Divick

+0

また、1回の実行とそれ以降の実行とは何を呼び出すのかは不明です。それはスクレーパーを停止し、スクレーパーを再度実行することは、後続の実行か、ダウンロードするURLのセットを呼び出すスクレーパーがシングルランと呼ばれ、別のランとしてダウンロードする別のセットのURLと呼ばれるでしょうか? – Divick

関連する問題