scrapy

    13

    2答えて

    私はScrapyを使用していくつかのウェブサイトをスクラップしています。後でモデルに新しいフィールドを追加したり、解析関数を変更したりすると、ダウンロードされた生データをオフラインで「再生」して再度スクラップすることができます。 http://dev.scrapy.org/browser/scrapy/trunk/scrapy/command/commands/replay.py?rev=168

    1

    3答えて

    私は、特定のWebサイトからデータを抽出するためにscrapyを使用しています。問題は、スパイダーが最初のstart_urlsのWebページのみをクロールでき、WebページのURLをクロールできないことです。 私はまったく同じクモをコピー: from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sg

    1

    1答えて

    私は、スパイダーのstart_urls変数の異なるURLの "最大深度"設定を変更するためにScrapy 0.12を取得しようとしています。 ドキュメントを正しく理解していれば、DEPTH_LIMITの設定はフレームワーク全体でグローバルであり、「最初のものからのリクエスト」という概念はないため、方法はありません。 これを回避する方法はありますか?同じスパイダーの複数のインスタンスを、開始URLご

    8

    2答えて

    私はScrapyプロジェクトを持っており、出力アイテムをDjangoモデル定義からオブジェクトとして保存しようとしています(私はDjangoItemを使用していません)。 hereと指定してDjangoの設定をインポートしています。私Scrapyプロジェクトで def setup_django_env(path): import imp, os from django.core

    11

    3答えて

    私はScrawl CrawlSpiderを持っていますが、これには非常に大きなクロールするURLのリストがあります。私はそれをやめて、現在の状態を保存し、後でやり直すことなく後で再開できるようにしたいと思います。 Scrapyフレームワーク内でこれを達成する方法はありますか?

    0

    1答えて

    デフォルトでは、ScrapyはHTTP 1.0を使用しているようです。要求を送信するためにHTTP 1.1を使用するようにする設定はありますか? ありがとうございました。 http://dev.scrapy.org/wiki/ScrapyRecipesから

    1

    1答えて

    どのように私はスパイダースパイダーに異なるパブリックIPアドレスをバインドできますか?さらに、各ソースIPのレート制限を設定することもできます(CONCURRENT_REQUESTS_PER_SOURCE_IPなど)。 治療のドキュメントから、CONCURRENT_REQUESTS_PER_DOMAINとCONCURRENT_REQUESTS_PER_IPの両方が、ターゲットドメインとターゲットI

    6

    1答えて

    私はボットを止めるのに十分な洗練されたWebサイトをクロールしようとしています。 質問1:Scrapyがハングした場合、同じポイントからクロールプロセスを再開することができます。 class ypSpider(CrawlSpider): name = "yp" start_urls = [ SOME URL ] rules=(

    0

    1答えて

    私は、Scrapy、Python Web-Scrapingフレームワークを使用してサイトからpdfファイルを削っています。 サイトでは、pdfをダウンロードできるように同じセッションに従う必要があります。 これはすべて自動化されているので、Scrapyの機能は素晴らしいですが、数秒後にスクリプトを実行すると、自分のセッションなしでPDFに直接アクセスしようとすると偽のpdfファイルが表示されます。

    0

    1答えて

    私はScrapyスクリプトを持っており、うまくいきます。それを私の友人に配布するには、Scrapyについてあまり知らないので実行可能にする必要があります。誰かが私にスクリープスクリプトをexeファイルにする方法を教えてくれるでしょうか? この点に関してpy2exeは適用されますか?