ScrapyでPDFファイルをダウンロードする

私は、Scrapy、Python Web-Scrapingフレームワークを使用してサイトからpdfファイルを削っています。ScrapyでPDFファイルをダウンロードする

サイトでは、pdfをダウンロードできるように同じセッションに従う必要があります。

これはすべて自動化されているので、Scrapyの機能は素晴らしいですが、数秒後にスクリプトを実行すると、自分のセッションなしでPDFに直接アクセスしようとすると偽のpdfファイルが表示されます。

なぜそうです&この問題を解決するにはどうすればいいですか？

2011-11-12 Kex

遅くリクエストしますか？私は彼らが賭け率を制限していると思う。 – kindall

あなたはそれについて正しいですが、それはより長い時間を必要とします - ブレーク＆そのダウンロード速度私はPDFファイルの巨大な量をダウンロードする必要があるため、私の仕事を完了できません。 – Kex

私はサイトがあなたのセッションを追跡していると思います。それがPHPサイトの場合は、PDFファイルをダウンロードするリクエストにPHPSESSID Cookieを渡します。

2011-11-13 18:50:06 warvariuc

答えて