2011-11-12 12 views
0

私は、Scrapy、Python Web-Scrapingフレームワークを使用してサイトからpdfファイルを削っています。ScrapyでPDFファイルをダウンロードする

サイトでは、pdfをダウンロードできるように同じセッションに従う必要があります。

これはすべて自動化されているので、Scrapyの機能は素晴らしいですが、数秒後にスクリプトを実行すると、自分のセッションなしでPDFに直接アクセスしようとすると偽のpdfファイルが表示されます。

なぜそうです&この問題を解決するにはどうすればいいですか?

+3

遅くリクエストしますか?私は彼らが賭け率を制限していると思う。 – kindall

+0

あなたはそれについて正しいですが、それはより長い時間を必要とします - ブレーク&そのダウンロード速度私はPDFファイルの巨大な量をダウンロードする必要があるため、私の仕事を完了できません。 – Kex

答えて

0

私はサイトがあなたのセッションを追跡していると思います。それがPHPサイトの場合は、PDFファイルをダウンロードするリクエストにPHPSESSID Cookieを渡します。

関連する問題