scrapy-spider

    -2

    1答えて

    私はXenuなどを使用していくつかのクロール方法を知っています。しかし、これを行うためのより良い、よりスマートな方法が必要です。 私は a)は、ページ自体404 のためのサイトマップ チェックに基づいてoourサイトをクロールしたいと思いますか? b)ページ自体にパラメータがない内部リンク404? c)すべての画像:存在しますか? PHPスクリプトなどを書くことができます。しかし、これを行うのに使

    2

    1答えて

    私は同時に動作しますので、Scrapyの私の最初のインスタンスがURL1を取得し、それぞれに1つのURLを渡し3クモ、秒を持っているしたいアレイ [url1,url2,url3, ... , url90] で90件のURLを持っています1つはurl2を取得し、3つ目はurl3を取得し、最初のジョブが終了するとurl4を取得します。 私はGNU Parallelを使用しましたが、別のソフトウェア

    0

    1答えて

    私はScrap(1.1.2)を使って製品をスクラップしています。私はそれを稼働させ、十分なデータを掻き集めることができましたが、今では、各要素がproduct pageに新しい要求を出してスクラップする、たとえば製品の説明が必要です。 まず、ここでの私の最後の作業コードは、私は、ここにドキュメントやいくつかの答えを読んだ後 spider.py class ProductScrapSpider(Sp

    0

    1答えて

    私は治療プロジェクトを持っています。その考えは、クローラを実行して結果を戻すことです。私はAPIアプリケーションとして、またvirtualenvironmentを使ってFlaskを使っています。以下の行はサブプロセス settings = get_project_settings() loader = SpiderLoader(settings) spiders = loader.list()

    0

    1答えて

    私は私のScrapyでプロキシミドルウェアを使用したいではなく、すべての要求がプロキシを必要とするためのミドルウェアが、無効プロキシのプロキシ。私はプロキシの使用法を濫用したり、プロキシを禁止されやすいようにしたくありません。 プロキシミドルウェアをオンにすると、いくつかのリクエストでプロキシを無効にする私のための方法はありますか?

    1

    1答えて

    私はスパイダーを持っていますが、動作しません。 私のスパイダーは、一部のリンクからのみ情報をスクレイプしました。 Here scraping all dataしかし、Here nothing。 私は別の方法で廃止しようとしましたが、結果は変わりません。 私のミスはどこですか?ここに私のコードは、これまでのところです: UPDATE:= 3 import scrapy from NotebookD

    1

    1答えて

    私は数日間このことに執着しており、それが私を狂ってしまいます。 私はこのように私のscrapyクモ呼び出す: scrapy crawl example -a follow_links="True" 私はWebサイト全体を掻き取りすべきかどうかを決定するために、「follow_links」フラグ、または私はクモで定義したばかりのインデックスページに渡します。 このフラグが設定されるべきルールを参

    1

    1答えて

    私はScrapyとPythonを初めて使います。私はScrapyの例でFormRequestを使用しようとしていますが、formdataパラメータが "Air"から '[]'を解析していないようです。これを回避する方法はありますか? import scrapy import re import json from scrapy.http import FormRequest class

    0

    1答えて

    からクラスの輸入インスタンス私はparse()でこのクラスを作成しました: class PitchforkSpider(scrapy.Spider): name = "pitchfork_reissues" allowed_domains = ["pitchfork.com"] #creates objects for each URL listed here

    3

    1答えて

    私は治療に初心者です。 hereから画像をダウンロードしようとしています。私はOfficial-Docとthis articleに従っていた。 私のsettings.pyは、次のようになります。私はこれらのファイルの両方が良好であると考え import scrapy from scrapy.item import Item class ShopcluesItem(scrapy.Item):