scrapy-pipeline

    0

    1答えて

    アクティブなpostgreSQL接続を使用するために変数self.cursorにアクセスしたいのですが、私はパイプラインクラスのスクラップのインスタンスにアクセスする方法を見つけることができません。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psyco

    1

    1答えて

    クロール基づく条件Iは、次Scrapyの解析方法を有する: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.ad

    0

    1答えて

    私はScrapyスパイダーとパイプライン設定を持っています。 My SpiderはWebサイトからデータを抽出し、Pipelineのprocess_item()メソッドは抽出したデータを一時データベーステーブルに挿入します。 最後に、Pipelineのclose_spider()メソッドで、一時データベーステーブルでいくつかのエラーチェックを実行します。もし問題がなければ、一時テーブルを永続化しま

    0

    1答えて

    私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか?スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリ

    1

    1答えて

    私は現在Scrapyプロジェクトを完成させていますが、かなり長いpipelines.pyファイルがあります。 私は(トリムダウン)は次のように私のsettings.pyパイプラインがショーあることに気づい: ITEM_PIPELINES = { 'proj.pipelines.MutatorPipeline': 200, 'proj.pipelines.CalculatorPi

    1

    2答えて

    私のscrapyプロジェクトでは、現在FilesPipelineを使用しています。ダウンロードしたファイルは、ファイル名としてURLのSHA1ハッシュで保存されます。 [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384

    0

    1答えて

    の名前を変更する重要:StackOverflowの上で現時点で利用可能なすべての答えはScrapyの以前のバージョンのためのものであるとscrapyする全く新しいscrapy 1.4 の最新バージョンでは動作しませんし、 python、私はいくつかのページをこすり、画像をダウンロードしようとしています。画像はをダウンロードされているが、彼らはまだ、ファイル名として、元のSHA-1の名前を持っていま

    0

    2答えて

    私は、それぞれが掻き取られるURLを含むデータオブジェクトのリストを持っています。これらのURLの一部は有効ではありませんが、アイテムオブジェクトのパイプラインに到達するためにデータオブジェクトが落ちるようにしたいと考えています。 @tomáš-linhartの返信の後、私は、この場合、最初のリクエストオブジェクトを作成することができないため、ミドルウェアを使用しても機能しないことを理解しました。