2011-02-18 12 views
0

私はRSSスパイダーをやっています。最後のクロールを制御するにはどうすれば の日付?制御ファイルで、私がクロールされている最後のPUB_DATEを入れScrapy:RSS制御pub_date

  • 今私が何を考えていたが、このです。

  • クロールが開始されると、最後のpub_dateが の新しいpub_datesと照合されます。新しいアイテムがある場合はクロールを開始し、そうでない場合は を実行します。

どのようにこの問題を解決しますか?

答えて

1

私はすべてのデータをデータベースに保存しています(最後のクロール日付と投稿日付を含む)、データベースから必要なすべての日付を取得します。

0

私はデータベースにもすべてのデータを保存し、データからハッシュ値を計算します。そうすれば、ハッシュを非常に素早く検索し、その場でデ・dup操作を実行することができます。

+1

あなたはこれをどのようにして詳しく説明できますか? –