scrapy

13熱

2答えて

私はScrapyを使用していくつかのウェブサイトをスクラップしています。後でモデルに新しいフィールドを追加したり、解析関数を変更したりすると、ダウンロードされた生データをオフラインで「再生」して再度スクラップすることができます。 http://dev.scrapy.org/browser/scrapy/trunk/scrapy/command/commands/replay.py?rev=168

1熱

3答えて

Scrapyを使用してWebページのURLをクロールする

私は、特定のWebサイトからデータを抽出するためにscrapyを使用しています。問題は、スパイダーが最初のstart_urlsのWebページのみをクロールでき、WebページのURLをクロールできないことです。私はまったく同じクモをコピー： from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sg

1熱

1答えて

異なる深さの複数の開始URLをクロールする

私は、スパイダーのstart_urls変数の異なるURLの "最大深度"設定を変更するためにScrapy 0.12を取得しようとしています。ドキュメントを正しく理解していれば、DEPTH_LIMITの設定はフレームワーク全体でグローバルであり、「最初のものからのリクエスト」という概念はないため、方法はありません。これを回避する方法はありますか？同じスパイダーの複数のインスタンスを、開始URLご

8熱

2答えて

ScientプロジェクトからDjangoモデルを保存する

私はScrapyプロジェクトを持っており、出力アイテムをDjangoモデル定義からオブジェクトとして保存しようとしています（私はDjangoItemを使用していません）。 hereと指定してDjangoの設定をインポートしています。私Scrapyプロジェクトで def setup_django_env(path): import imp, os from django.core

11熱

3答えて

どのようにして治療用CrawlSpiderを停止し、後で中断したところから再開できますか？

私はScrawl CrawlSpiderを持っていますが、これには非常に大きなクロールするURLのリストがあります。私はそれをやめて、現在の状態を保存し、後でやり直すことなく後で再開できるようにしたいと思います。 Scrapyフレームワーク内でこれを達成する方法はありますか？

0熱

1答えて

デフォルトでHTTP 1.0が使用されています

デフォルトでは、ScrapyはHTTP 1.0を使用しているようです。要求を送信するためにHTTP 1.1を使用するようにする設定はありますか？ありがとうございました。 http://dev.scrapy.org/wiki/ScrapyRecipesから

1熱

1答えて

screamスパイダーと異なるIPアドレスをバインド

どのように私はスパイダースパイダーに異なるパブリックIPアドレスをバインドできますか？さらに、各ソースIPのレート制限を設定することもできます（CONCURRENT_REQUESTS_PER_SOURCE_IPなど）。治療のドキュメントから、CONCURRENT_REQUESTS_PER_DOMAINとCONCURRENT_REQUESTS_PER_IPの両方が、ターゲットドメインとターゲットI

6熱

1答えて

sclerフレームワークでtorを使用しています

私はボットを止めるのに十分な洗練されたWebサイトをクロールしようとしています。質問1：Scrapyがハングした場合、同じポイントからクロールプロセスを再開することができます。 class ypSpider(CrawlSpider): name = "yp" start_urls = [ SOME URL ] rules=(

0熱

1答えて

ScrapyでPDFファイルをダウンロードする

私は、Scrapy、Python Web-Scrapingフレームワークを使用してサイトからpdfファイルを削っています。サイトでは、pdfをダウンロードできるように同じセッションに従う必要があります。これはすべて自動化されているので、Scrapyの機能は素晴らしいですが、数秒後にスクリプトを実行すると、自分のセッションなしでPDFに直接アクセスしようとすると偽のpdfファイルが表示されます。

0熱

1答えて

Python Scrapyスクリプトからexeファイルを作成するには？

私はScrapyスクリプトを持っており、うまくいきます。それを私の友人に配布するには、Scrapyについてあまり知らないので実行可能にする必要があります。誰かが私にスクリープスクリプトをexeファイルにする方法を教えてくれるでしょうか？この点に関してpy2exeは適用されますか？