scrapy-spider

0熱

1答えて

私は、FIFOの順番でクロールを処理するようにしたいと思います。たとえば、各要素が3つのDEPTHノードを処理してループしている場合、2番目の要素が3つのDEPTH呼び出し。

5熱

2答えて

私はScrapyでAmazonを掻き集めようとしています。しかし、私は= Amazonがボットを検出に非常に優れているからだと思い DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3

1熱

1答えて

Scrapy：条件項目値で歩留まり要求を防止する方法

私はURLのリストを解析しています。いくつかの値の条件で結果のURLを保存することを避けたいと思います。私のコードは次のようなものです： start_urls = [www.rootpage.com] def parse(self,response): item = CreatedItem() url_list = response.xpath('somepath').ext

-1熱

2答えて

ScrapyリュエルLinkExtractor次のページ

私はサイトからいくつかのページ区切りのページデータを抽出を通じて横断スパイダー構築しています：これは蜘蛛です http://www.usnews.com/education/best-global-universities/neuroscience-behavior を： # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spi

1熱

1答えて

Python Web Spider：キャプチャを解決するには？

キャプチャはランダムに生成されます。私はcaptchaのリンクを取得し、それをダウンロードします。その後、このキャプチャとヘッダーも正しく設定されているウェブサイトをクロールします。しかし、キャプチャが間違っているというエラーが表示されます。私はこれをどのように解決するか分かりません。キャプチャを1つ取得すると、それが変更されたようです。誰か助けてくれますか？どんな助けもありがとう。マイスクリプ

0熱

1答えて

Scrapでprocess_links関数から応答URLを取得する方法はありますか？

process_links関数からレスポンス（条件としてのURL）にアクセスしようとしていますので、URLを書き換えることができます。これを行う方法はありますか？現在、私はエラーを取得：process_links（）あなたは、あなたの関数で応答を受け取ることを期待 def process_links(self, links): に（与えられた2） class Spider(CrawlSpide

1熱

1答えて

スプラッシュから複数の戻り値を処理する方法

スプラッシュでスプラッシュを使用しています。スプラッシュで複数の値を送信できますが、私の治療コードではすべてを処理できませんでした。たとえば、このスプラッシュスクリプト splash_script = """ function main(splash) local url = splash.args.url return { html = splas

0熱

1答えて

スパイダーで連結する

複数のスパイダーを連結して1つの出力がもう1つのフィードになるようにしたい。私はScrapyが構文解析関数を連結し、アイテムのcomunicateに要求のMetaパラメータを使用する方法を認識しています。 class MySpider(scrapy.Spider): start_urls = [url1] def parse(self, response): # p

-2熱

1答えて

治療はサイト上でクロールしません

私は共通のトラップを持っており、それを取り除くことはできません：私の治療スパイダーは非常に怠惰なので、それはstart_urlsだけを解析することができます。コード： import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor from scrapy.item i

1熱

3答えて

スクラブで広範囲にクロールする

私はスパイラルで広範なクローラを構築しようとしていますが、同時に多数のスパイダーを同時に実行できますが、同時に同じドメインをクロールすることはできません。