scrapy-spider

    0

    1答えて

    私は、FIFOの順番でクロールを処理するようにしたいと思います。たとえば、各要素が3つのDEPTHノードを処理してループしている場合、2番目の要素が3つのDEPTH呼び出し。

    5

    2答えて

    私はScrapyでAmazonを掻き集めようとしています。 しかし、私は= Amazonがボットを検出に非常に優れているからだと思い DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3

    1

    1答えて

    私はURLのリストを解析しています。いくつかの値の条件で結果のURLを保存することを避けたいと思います。私のコードは次のようなものです: start_urls = [www.rootpage.com] def parse(self,response): item = CreatedItem() url_list = response.xpath('somepath').ext

    -1

    2答えて

    私はサイトからいくつかのページ区切りのページデータを抽出を通じて横断スパイダー構築しています:これは蜘蛛です http://www.usnews.com/education/best-global-universities/neuroscience-behavior を: # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spi

    1

    1答えて

    キャプチャはランダムに生成されます。私はcaptchaのリンクを取得し、それをダウンロードします。その後、このキャプチャとヘッダーも正しく設定されているウェブサイトをクロールします。しかし、キャプチャが間違っているというエラーが表示されます。私はこれをどのように解決するか分かりません。キャプチャを1つ取得すると、それが変更されたようです。誰か助けてくれますか?どんな助けもありがとう。 マイスクリプ

    0

    1答えて

    process_links関数からレスポンス(条件としてのURL)にアクセスしようとしていますので、URLを書き換えることができます。これを行う方法はありますか?現在、私はエラーを取得:process_links()あなたは、あなたの関数で応答を受け取ることを期待 def process_links(self, links): に(与えられた2) class Spider(CrawlSpide

    1

    1答えて

    スプラッシュでスプラッシュを使用しています。スプラッシュで複数の値を送信できますが、私の治療コードではすべてを処理できませんでした。たとえば、 このスプラッシュスクリプト splash_script = """ function main(splash) local url = splash.args.url return { html = splas

    0

    1答えて

    複数のスパイダーを連結して1つの出力がもう1つのフィードになるようにしたい。私はScrapyが構文解析関数を連結し、アイテムのcomunicateに要求のMetaパラメータを使用する方法を認識しています。 class MySpider(scrapy.Spider): start_urls = [url1] def parse(self, response): # p

    -2

    1答えて

    私は共通のトラップを持っており、それを取り除くことはできません:私の治療スパイダーは非常に怠惰なので、それはstart_urlsだけを解析することができます。コード: import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor from scrapy.item i

    1

    3答えて

    私はスパイラルで広範なクローラを構築しようとしていますが、同時に多数のスパイダーを同時に実行できますが、同時に同じドメインをクロールすることはできません。