scrapy-pipeline

0熱

1答えて

アクティブなpostgreSQL接続を使用するために変数self.cursorにアクセスしたいのですが、私はパイプラインクラスのスクラップのインスタンスにアクセスする方法を見つけることができません。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psyco

1熱

1答えて

Scrapy -

クロール基づく条件Iは、次Scrapyの解析方法を有する： def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.ad

0熱

1答えて

Pipeline.close_spider（）メソッドでScrapyにエラーが発生したかどうかを確認するにはどうすればよいですか？

私はScrapyスパイダーとパイプライン設定を持っています。 My SpiderはWebサイトからデータを抽出し、Pipelineのprocess_item（）メソッドは抽出したデータを一時データベーステーブルに挿入します。最後に、Pipelineのclose_spider（）メソッドで、一時データベーステーブルでいくつかのエラーチェックを実行します。もし問題がなければ、一時テーブルを永続化しま

0熱

1答えて

画像の内容をScrapy-Splashで返します

私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか？スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

1熱

1答えて

フォルダ/ファイルを分離するためのパイプライン - 抽象度

私は現在Scrapyプロジェクトを完成させていますが、かなり長いpipelines.pyファイルがあります。私は（トリムダウン）は次のように私のsettings.pyパイプラインがショーあることに気づい： ITEM_PIPELINES = { 'proj.pipelines.MutatorPipeline': 200, 'proj.pipelines.CalculatorPi

1熱

2答えて

治療ファイルのダウンロード方法カスタムファイル名の使用方法

私のscrapyプロジェクトでは、現在FilesPipelineを使用しています。ダウンロードしたファイルは、ファイル名としてURLのSHA1ハッシュで保存されます。 [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384

0熱

1答えて

のPython + Scrapyは、ダウンロードした画像

の名前を変更する重要：StackOverflowの上で現時点で利用可能なすべての答えはScrapyの以前のバージョンのためのものであるとscrapyする全く新しいscrapy 1.4 の最新バージョンでは動作しませんし、 python、私はいくつかのページをこすり、画像をダウンロードしようとしています。画像はをダウンロードされているが、彼らはまだ、ファイル名として、元のSHA-1の名前を持っていま

0熱

2答えて

空のURLを治療パイプラインに渡すことができません

私は、それぞれが掻き取られるURLを含むデータオブジェクトのリストを持っています。これらのURLの一部は有効ではありませんが、アイテムオブジェクトのパイプラインに到達するためにデータオブジェクトが落ちるようにしたいと考えています。 @tomáš-linhartの返信の後、私は、この場合、最初のリクエストオブジェクトを作成することができないため、ミドルウェアを使用しても機能しないことを理解しました。