私はウェブサイト全体をクロールできません.Scrapyは表面をちょうど這うので、私はより深くクロールしたいです。最後の5-6時間のためにグーグルグーグルと助けなし。下のコード:Scrapy - ウェブサイト全体をクロールする
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
助けてください!!!!
おかげで、 Abhiram
私のipは禁止されています。それは間違いなく動作します! :) – alecxe
@アレクサンダー - 私はより多くの:) :)をデバッグするための励みになる音IP禁止メイトで申し訳ありません! –
実際にexample.comをクロールしようとしていますか?あなたはそれが本当のウェブサイトではないことを知っています。 –