私は、特定のWebサイトからデータを抽出するためにscrapyを使用しています。問題は、スパイダーが最初のstart_urlsのWebページのみをクロールでき、WebページのURLをクロールできないことです。 私はまったく同じクモをコピー: from scrapy.spider import BaseSpider
from scrapy.contrib.linkextractors.sg
私はScrapyプロジェクトを持っており、出力アイテムをDjangoモデル定義からオブジェクトとして保存しようとしています(私はDjangoItemを使用していません)。 hereと指定してDjangoの設定をインポートしています。私Scrapyプロジェクトで def setup_django_env(path):
import imp, os
from django.core
私はボットを止めるのに十分な洗練されたWebサイトをクロールしようとしています。 質問1:Scrapyがハングした場合、同じポイントからクロールプロセスを再開することができます。 class ypSpider(CrawlSpider):
name = "yp"
start_urls = [
SOME URL
]
rules=(