リンクを関連する日付で削り取ることは可能ですか?私はデータベースに記事情報を保存する毎日の実行スパイダーを実装しようとしていますが、私はすでに昨日の記事の前に掻き取ってしまった記事を再スクラップしたくありません。私はthisを渡って同じことを尋ねるので、scrapy-deltafetch pluginが提案されました。Scrapy - 日付別リンクを掻き集める
ただし、これはデータベースに保存されている以前に保存されたrequest fingerprintsに対して新しい要求をチェックすることに依存しています。私は毎日の掻爬がしばらく続くと、すでに掻き取られた要求指紋を格納するためにデータベースに大きなメモリオーバーヘッドが必要になると想定しています。
cnn.comのようなサイトの記事のリストがあるので、6/14/17今日公開されたすべての記事を掻きたいですが、スクレイパーが6/13/17、私はクモを閉じて掻き取りを止めたい。このようなアプローチは治療で可能ですか?記事のページが与えられたら、CrawlSpider
はページの先頭で始まり、順番に記事をこすりますか?
Scrapy
に新しくなったので、何を試していいのかわかりません。どんな助けでも大歓迎です、ありがとう!
私はそれが 'scrapy'に組み込まれているとは思っていませんが、記事のURLは'/2017/06/14/politics/two-arrested-brawl-turkish-embassy/index.html'あなたはURLから日付を解析して比較することを考えましたか? – etemple1
@ etemple1残念ながら、この例では 'cnn.com'はサンプルサイトであり、私が掻きたいサイトではありません。私が掻き集めるサイトのほとんどは、URLに日付を含めません – ocean800
ああ、大丈夫です。だから、どのようにして "関連する日付"をリンクで知っていますか? – etemple1