scrapy-spider

-1熱

2答えて

特定のフィールドのすべてのブログサイトをクロールしたい。たとえば。タイトル、説明、タグ、日付、著者など。私はscrapyライブラリをPythonでビルドしています。各サイトで、htmlは異なるようになります。私は常にh1タグでタイトルを取得するわけではありません。すべてのブログサイトには異なる形式があります。私にはクロールしたいサイトが固定されていません。また、私は新しいサイトを掻きたいときに毎

0熱

1答えて

scrapy：なぜここにparse_item機能のない使用

は私のスパイダーではありません。ここで import scrapy import urlparse from scrapy.http import Request class BasicSpider(scrapy.Spider): name = "basic2" allowed_domains = ["cnblogs"] start

0熱

1答えて

restrict_xpathが内部のhrefを無視するのはなぜですか？<a>タグ？

私はすべての画像のURLを抽出するためにウィキペディアのページを掻いています。ここにコードがあります。 from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class WikiSpider(CrawlSpider): name = 'wiki'

1熱

1答えて

DEPTH_LIMITは正確に何を指していますか？現在の深さは参照可能ですか？

Scrapyは、それがDEPTH_LIMIT settingを持っていると示していますが、具体的には「深さ」とは考えていません。ページのスクラップに関しては、「深さ」は「深さ」を参照しています。http://somedomain.com/this/is/a/depth/six/url、そのURLで要求されたページの深さは「6」です。http://somedomain.com深さゼロである。一方、

1熱

2答えて

ウェブサイトの強制的なリダイレクト

私はwww.caribbeanjobs.comからリダイレクトされ続けています。私はスパイダーがrobot.txtに従わないようにプログラミングしました。クッキーは無効になりました。メタ= dont_redirectを試しました。他に何ができますか？これは、以下の私のクモです： import scrapy from tutorial.items import CaribbeanJobsIte

0熱

1答えて

Scrapy CrawlSpiderにインスタンス変数を追加する方法は？

私はCrawlSpiderを実行していますが、実行中のリンクのいくつかに続いて、process_requestに関数を渡すことで、いくつかのロジックを実装したいと考えています。この関数は、リンクが削除または処理され続けます現在の状態を追跡するためにクモのクラス変数を使用し、それに応じて（とリファラURL上）： class BroadCrawlSpider(CrawlSpider): n

0熱

1答えて

PythonのScrapy - ファイル名を指定して実行スパイダーWindowsマシン上でPython27を実行

...私は、次のクモを作成し、Test2を@ Cとしてそれを保存したhttp://doc.scrapy.org/en/latest/intro/overview.html @基本Scrapyチュートリアル以下Scrapy を使用しようとすると、：\ Python27 \ Scrapy import scrapy class StackOverflowSpider(scrapy.Spider

0熱

1答えて

Scrapyスパイダーを構築しましたが、リンクに従っていません

私はハイキングのリンクを取得するために簡単なスパイダーを書いた。 from scrapy.spiders import Spider from scrapy.selector import Selector from oregon_hikes_scrapper.items import HikeLinkItem ENDPOINTS = [ 'from="%27%27Peter_Ired

1熱

1答えて

治療のアップロードファイル

私は、治療を使用してウェブサイトにフォーム要求をしています。フォームはpdfファイルをアップロードする必要があります。どのようにScrapyでそれを行うことができますか？私はこのようにしようとしています - FormRequest(url,callback=self.parseSearchResponse,method="POST",formdata={'filename':'abc.xyz','

1熱

1答えて

治療は最後の要素のみを返します

scrapyの助けを借りていくつかのコース/レッスンを掻き集めていますが、これは最後のの要素をリストに収めているようです。ここは、問題のコードです： def parse_course_list(self, response): """ Scrape list of lessons for each course """ lessons = response.css('ul.l