scrapy-spider

    -1

    2答えて

    特定のフィールドのすべてのブログサイトをクロールしたい。たとえば。タイトル、説明、タグ、日付、著者など。私はscrapyライブラリをPythonでビルドしています。 各サイトで、htmlは異なるようになります。私は常にh1タグでタイトルを取得するわけではありません。すべてのブログサイトには異なる形式があります。私にはクロールしたいサイトが固定されていません。また、私は新しいサイトを掻きたいときに毎

    0

    1答えて

    は私のスパイダーではありません。ここで import scrapy import urlparse from scrapy.http import Request class BasicSpider(scrapy.Spider): name = "basic2" allowed_domains = ["cnblogs"] start

    0

    1答えて

    私はすべての画像のURLを抽出するためにウィキペディアのページを掻いています。ここにコードがあります。 from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class WikiSpider(CrawlSpider): name = 'wiki'

    1

    1答えて

    Scrapyは、それがDEPTH_LIMIT settingを持っていると示していますが、具体的には「深さ」とは考えていません。ページのスクラップに関しては、「深さ」は「深さ」を参照しています。http://somedomain.com/this/is/a/depth/six/url、そのURLで要求されたページの深さは「6」です。http://somedomain.com深さゼロである。 一方、

    1

    2答えて

    私はwww.caribbeanjobs.comからリダイレクトされ続けています。私はスパイダーがrobot.txtに従わないようにプログラミングしました。クッキーは無効になりました。メタ= dont_redirectを試しました。他に何ができますか? これは、以下の私のクモです: import scrapy from tutorial.items import CaribbeanJobsIte

    0

    1答えて

    私はCrawlSpiderを実行していますが、実行中のリンクのいくつかに続いて、process_requestに関数を渡すことで、いくつかのロジックを実装したいと考えています。 この関数は、リンクが削除または処理され続けます現在の状態を追跡するためにクモのクラス変数を使用し、それに応じて(とリファラURL上): class BroadCrawlSpider(CrawlSpider): n

    0

    1答えて

    ...私は、次のクモを作成し、Test2を@ Cとしてそれを保存したhttp://doc.scrapy.org/en/latest/intro/overview.html @基本Scrapyチュートリアル以下Scrapy を使用しようとすると、 :\ Python27 \ Scrapy import scrapy class StackOverflowSpider(scrapy.Spider

    0

    1答えて

    私はハイキングのリンクを取得するために簡単なスパイダーを書いた。 from scrapy.spiders import Spider from scrapy.selector import Selector from oregon_hikes_scrapper.items import HikeLinkItem ENDPOINTS = [ 'from="%27%27Peter_Ired

    1

    1答えて

    私は、治療を使用してウェブサイトにフォーム要求をしています。フォームはpdfファイルをアップロードする必要があります。どのようにScrapyでそれを行うことができますか?私はこのようにしようとしています - FormRequest(url,callback=self.parseSearchResponse,method="POST",formdata={'filename':'abc.xyz','

    1

    1答えて

    scrapyの助けを借りていくつかのコース/レッスンを掻き集めていますが、これは最後のの要素をリストに収めているようです。ここ は、問題のコードです: def parse_course_list(self, response): """ Scrape list of lessons for each course """ lessons = response.css('ul.l