scrapy-pipeline

    0

    1答えて

    でHTTPリクエストを作る私はパイプラインでこの { name: "Foo", country: "US", url: "http://..." } は私がURLにGETリクエストを作成し、CONTENT_TYPEとステータスのようないくつかのヘッダーを確認したいように見える掻き取ったアイテムを持っていると仮定します。ヘッダーが特定の条件を満たしていないときは、

    0

    1答えて

    私は、Scrawlingの両面で、クロールとスクレーピングの両方の要求に遭遇しました。しかし、アプリケーションの要件に応じて、私はモノリシックなアプローチにならないことに決めました。すべてがサービスベースでなければなりません。そこで私は2つのサービスを設計することにしました。 すべてのURLとHTMLを取得します。 s3でアップロードします。 なぜHTMLから スクラップアイテム?シンプルな今日、

    0

    1答えて

    Scrapy Frameworkとdjano-itemを使用してWebページから画像ダウンロードを設定しようとしています。フィールドが空のディレクトリですん Scrapy log 私はそこに何が悪かったのか上の任意の情報を見つけることができませんが、画像:私はdoc で同じよ​​うにすべてを行っていると思いますが、私はこのように見ているログscrapyクロールを呼び出した後画像は含まれていません。

    0

    1答えて

    私の問題は、情報をスクラップしてデータベースに表示されないということです。 私のスパイダーは、.jsonファイルなどの情報を細かく印刷します。 pipelines.py import sys import MySQLdb import hashlib from scrapy.exceptions import DropItem from scrapy.http import Request

    5

    1答えて

    私はScrapy(バージョン1.0.3)スパイダーを持っています。私が持っているitems.pyで from scrapy.pipelines.files import FilesPipeline class CustomFilesPipeline(FilesPipeline): def file_path(self, request, response=None, info=Non