クロールしているウェブページのリンクされたウェブページからデータをクロールする方法

私はこのウェブページの大学名をクロールしていますが、これらの大学の学部の数をクロールしたい場合は、大学の名前をクリックして、大学のウェブページを開きます。クロールしているウェブページのリンクされたウェブページからデータをクロールする方法

結果を得るには、このコードに何を追加する必要がありますか？結果は次のようなものであるべき

import scrapy 
class QuotesSpider(scrapy.Spider): 
    name = "student" 
    start_urls = [ 
     'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha', 
    ] 

    def parse(self, response): 
     for students in response.css('li.search-result'): 
      yield { 
       'name': students.css('div.title a::text').extract(),     
      }

出典

2017-06-10 Yash

import scrapy 
class QuotesSpider(scrapy.Spider): 
    name = "student" 
    start_urls = [ 
     'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha', 
    ] 

    def parse(self, response): 
     for students in response.css('li.search-result'): 
      req = scrapy.Request(students.css(SELECT_URL), callback=self.parse_student) 
      req.meta['name'] = students.css('div.title a::text').extract() 
      yield req 

    def parse_student(self, response): 
     yield { 
      'name': response.meta.get('name') 
      'other data': response.css(SELECTOR) 
     }

[...、（NAME1、faculty1）、（NAME2、faculty2）]の形式でなければなりません。リクエストのメタデータに生徒の名前を送信します。これにより、次のリクエストでリクエストできるようになります。

parse_studentでスクラップした最後のページでもデータが利用できる場合は、メタデータで送信せずに最後のページからスクラップすることを検討するとよいでしょう。

出典

2017-06-10 19:57:57 Casper

"SELECTOR"を "h4.blockSubHeading :: text"に置き換えましたが、 "SELECT_URL"をどのように置き換えるべきですか？ – Yash

あなたは、あなたが大学の名前をクリックすると、情報を見つけることができると述べた。したがって、その特定のリンクのURLを選択して、そのURLのデータを 'parse_student'関数で利用できるようにします。つまり、これはおそらくこのようなものです： 'div.title> a'（そして、href属性を選択します）。私は通常、CSSセレクタでは動作しませんので、正確なセレクタを与えることはできません。 – Casper

クロールしているウェブページのリンクされたウェブページからデータをクロールする方法

答えて

関連する問題