scrapy-pipeline

0熱

1答えて

でHTTPリクエストを作る私はパイプラインでこの { name: "Foo", country: "US", url: "http://..." } は私がURLにGETリクエストを作成し、CONTENT_TYPEとステータスのようないくつかのヘッダーを確認したいように見える掻き取ったアイテムを持っていると仮定します。ヘッダーが特定の条件を満たしていないときは、

0熱

1答えて

Scrapy：URLからではなくHTMLのアイテムをスクラップします

私は、Scrawlingの両面で、クロールとスクレーピングの両方の要求に遭遇しました。しかし、アプリケーションの要件に応じて、私はモノリシックなアプローチにならないことに決めました。すべてがサービスベースでなければなりません。そこで私は2つのサービスを設計することにしました。すべてのURLとHTMLを取得します。 s3でアップロードします。なぜHTMLからスクラップアイテム？シンプルな今日、

0熱

1答えて

画像処理パイプラインで画像がダウンロードされない

Scrapy Frameworkとdjano-itemを使用してWebページから画像ダウンロードを設定しようとしています。フィールドが空のディレクトリですん Scrapy log 私はそこに何が悪かったのか上の任意の情報を見つけることができませんが、画像：私はdoc で同じようにすべてを行っていると思いますが、私はこのように見ているログscrapyクロールを呼び出した後画像は含まれていません。

0熱

1答えて

scrapy mysqlが空の結果を返す

私の問題は、情報をスクラップしてデータベースに表示されないということです。私のスパイダーは、.jsonファイルなどの情報を細かく印刷します。 pipelines.py import sys import MySQLdb import hashlib from scrapy.exceptions import DropItem from scrapy.http import Request

5熱

1答えて

スクラップしたアイテムとファイルを保存すると、Scrapyは出力のCSVファイルに空の行を挿入します

私はScrapy（バージョン1.0.3）スパイダーを持っています。私が持っているitems.pyで from scrapy.pipelines.files import FilesPipeline class CustomFilesPipeline(FilesPipeline): def file_path(self, request, response=None, info=Non