2011-10-18 48 views
1

私は、特定のWebサイトからデータを抽出するためにscrapyを使用しています。問題は、スパイダーが最初のstart_urlsのWebページのみをクロールでき、WebページのURLをクロールできないことです。 私はまったく同じクモをコピー:Scrapyを使用してWebページのURLをクロールする

from scrapy.spider import BaseSpider 
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
    from scrapy.selector import HtmlXPathSelector 
    from scrapy.http import Request 
    from scrapy.utils.response import get_base_url 
    from scrapy.utils.url import urljoin_rfc 
    from nextlink.items import NextlinkItem 

    class Nextlink_Spider(BaseSpider): 
     name = "Nextlink" 
     allowed_domains = ["Nextlink"] 
     start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//body/div[2]/div[3]/div/ul/li[2]/a/@href')   
     for site in sites: 
      relative_url = site.extract() 
      url = self._urljoin(response,relative_url) 
      yield Request(url, callback = self.parsetext) 

    def parsetext(self, response): 
     log = open("log.txt", "a") 
     log.write("test if the parsetext is called") 
     hxs = HtmlXPathSelector(response) 
     items = [] 
     texts = hxs.select('//div').extract() 
     for text in texts: 
      item = NextlinkItem() 
      item['text'] = text 
      items.append(item) 
      log = open("log.txt", "a") 
      log.write(text) 
     return items 

    def _urljoin(self, response, url): 
     """Helper to convert relative urls to absolute""" 
     return urljoin_rfc(response.url, url, response.encoding) 

私はparsetextがcalled.Howeverであれば、私は私のクモをrunnedした後、テストするのlog.txtを使用し、log.txtとでは何もありません。

+0

あなたはファイルハンドルをクローズしていませんか? – spicavigo

+0

治療法を使用したことはありませんでしたが、[this](http://readthedocs.org/docs/sciences/en/0.9/topics/spiders.html#scrapy.spider.BaseSpider.allowed_domains) – spicavigo

答えて

1

はこちらをご覧ください:

http://readthedocs.org/docs/scrapy/en/latest/topics/spiders.html?highlight=allowed_domains#scrapy.spider.BaseSpider.allowed_domains

allowed_domains

このクモはクロールを許可するドメインを含む文字列のリスト(オプション)。 OffsiteMiddlewareが有効になっている場合、このリストに指定されたドメイン名に属していないURLに対するリクエストは追跡されません。

あなたの設定でOffsiteMiddlewareを有効にしていない限り、それは問題ではなく、allowed_domainsを完全に残すことができます。

オフサイトミドルウェアが有効になっているかどうかをsettings.pyで確認してください。スパイダーがどのドメインでもクロールできるようにするには、このオプションを有効にするべきではありません。

+0

それは私のために働いています。ありがとうございます – HjySix

+0

私は誤ってallow_domainsに値を入れて、私にかなりの髪を引っ張るデバッグ時間をもたらした同じ問題を抱えていました。ストーリーのモラル:あなたが実際にそれを必要としない限り、allowed_domainsに入れないでください – Skurpi

0

私の推測では、この行のようになります。

allowed_domains = ["Nextlink"] 

これはdomain.tldにのようなドメインではありませんので、すべてのリンクを拒否するでしょう。 あなたがthe documentationから例を取る場合:allowed_domains = ["dmoz.org"]

+0

は完全には正しくありません - allowed_domainsはallowed_domainsの文字列のオプションのリストですが、デフォルトでは有効になっていないOffsiteMiddlewareを有効にした場合にのみ考慮されます。 – naeg

+0

それもうまくいきます。ご協力いただきありがとうございます。 – HjySix

1

私は問題は、Scrapyに各クロールされたURLに従うように指示していないと思います。私は私のブログのページから関連するすべてのリンクを抽出するためにLinkExtractorベースのルールを使用していますCrawlSpiderを実装しました私自身のブログの場合:https://www.ask-sheldon.com/build-a-website-crawler-using-scrapy-framework/オン

# -*- coding: utf-8 -*- 

''' 
* This program is free software: you can redistribute it and/or modify 
* it under the terms of the GNU General Public License as published by 
* the Free Software Foundation, either version 3 of the License, or 
* (at your option) any later version. 
* 
* This program is distributed in the hope that it will be useful, 
* but WITHOUT ANY WARRANTY; without even the implied warranty of 
* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the 
* GNU General Public License for more details. 
* 
* You should have received a copy of the GNU General Public License 
* along with this program. If not, see <http://www.gnu.org/licenses/>. 
* 
* @author Marcel Lange <[email protected]> 
* @package ScrapyCrawler 
''' 


from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

import Crawler.settings 
from Crawler.items import PageCrawlerItem 


class SheldonSpider(CrawlSpider): 
    name = Crawler.settings.CRAWLER_NAME 
    allowed_domains = Crawler.settings.CRAWLER_DOMAINS 
    start_urls = Crawler.settings.CRAWLER_START_URLS 
    rules = (
     Rule(
      LinkExtractor(
       allow_domains=Crawler.settings.CRAWLER_DOMAINS, 
       allow=Crawler.settings.CRAWLER_ALLOW_REGEX, 
       deny=Crawler.settings.CRAWLER_DENY_REGEX, 
       restrict_css=Crawler.settings.CSS_SELECTORS, 
       canonicalize=True, 
       unique=True 
      ), 
      follow=True, 
      callback='parse_item', 
      process_links='filter_links' 
     ), 
    ) 

    # Filter links with the nofollow attribute 
    def filter_links(self, links): 
     return_links = list() 
     if links: 
      for link in links: 
       if not link.nofollow: 
        return_links.append(link) 
       else: 
        self.logger.debug('Dropped link %s because nofollow attribute was set.' % link.url) 
     return return_links 

    def parse_item(self, response): 
     # self.logger.info('Parsed URL: %s with STATUS %s', response.url, response.status) 
     item = PageCrawlerItem() 
     item['status'] = response.status 
     item['title'] = response.xpath('//title/text()')[0].extract() 
     item['url'] = response.url 
     item['headers'] = response.headers 
     return item 

私が温めウェブサイトのクローラーを実装しましたどのように詳細に説明しました私のWordpressフルページキャッシュをアップ。

関連する問題