私はRSSスパイダーをやっています。最後のクロールを制御するにはどうすれば の日付?制御ファイルで、私がクロールされている最後のPUB_DATEを入れScrapy:RSS制御pub_date
- :
今私が何を考えていたが、このです。
- クロールが開始されると、最後のpub_dateが の新しいpub_datesと照合されます。新しいアイテムがある場合はクロールを開始し、そうでない場合は を実行します。
どのようにこの問題を解決しますか?
私はRSSスパイダーをやっています。最後のクロールを制御するにはどうすれば の日付?制御ファイルで、私がクロールされている最後のPUB_DATEを入れScrapy:RSS制御pub_date
今私が何を考えていたが、このです。
どのようにこの問題を解決しますか?
私はすべてのデータをデータベースに保存しています(最後のクロール日付と投稿日付を含む)、データベースから必要なすべての日付を取得します。
私はデータベースにもすべてのデータを保存し、データからハッシュ値を計算します。そうすれば、ハッシュを非常に素早く検索し、その場でデ・dup操作を実行することができます。
あなたはこれをどのようにして詳しく説明できますか? –