2017-07-19 18 views
0

私はScrapy-Splashリクエストを使用してページのレンダリングされたスクリーンショットを取得していますが、そのページにも画像が必要です。私はそれらのイメージをダウンロードするためにパイプラインを使用しますが、私は考えていました - これは同じイメージに対する2つの要求をしませんか?スプラッシュがページをレンダリングしているときとダウンロード要求を送信したとき。 Scrapy-Splashリクエストによって返されるイメージを取得する方法はありますか?画像の内容をScrapy-Splashで返します

答えて

1

応答本体を有効にして(respone_body引数またはsplash.response_body_enabled=Trueのいずれかを使用して)、HARエクスポートからイメージを抽出できます。

+0

ありがとうございました。 誰かがこれを見ているなら、もっと正確にするためには... '' response_body ':1、' har ':1'を 'splash_args'に追加する必要があり、それはあなたのjsonやharのHARデータを与えるはずです終点。 – Akustik

+0

あなたはいつもresponse_bodyを返す方法を知っていますか?現時点では、サイトに初めてアクセスするときに初めて取得します。私はこれがスプラッシュキャッシュのために起こると思いますか? – Akustik

+0

はい、キャッシュのために起こります。現在、このキャッシュを無効にする方法はありません。 [_gc](http://splash.readthedocs.io/en/stable/api.html#gc)エンドポイントを使用してクリアすることは可能ですが、回避策に過ぎません。 –

関連する問題