2009-07-13 3 views
2

私が掻き取ろうとしているサイトは、jsを使ってクッキーを作成しています。私が考えていたのは、私がPythonでクッキーを作成し、そのクッキーを使ってサイトを掻き集めることができるということでした。しかし、私はそれを行う方法を知らない。誰にもアイデアはありますか?pythonでサイトをスクレイプするためにクッキーを作成する

+0

サイトがサイトからのものであることを確認するためにサイトがクッキーにデジタル署名を挿入する可能性があるため、これは一般的には機能しませんか? – Tom

+1

javascriptを使用してクッキーを作成するので、その作成方法が分かります。 –

答えて

2

リクエストにクッキーを追加する例については、Python httplib2 - Handling Cookies in HTTP Form Postsを参照してください。

私はしばしばウェブ ベースのアプリケーションでタスクを自動化する必要があります。私はこれを のプロトコルレベルで、実際のユーザのHTTP経由の対話をシミュレートすることによって行います。 Pythonにはurllib(上位レベルのWeb インターフェイス)とhttplib(下位のレベル HTTPインターフェイス)の2つの組み込みモジュール が付属しています。

+0

+1は本当に便利なライブラリのようです。非常に関連性の高いリンク! –

+0

ありがとうございました。私はそれをうまく動作させることができました:) –

2

さらに詳しいブラウザエミュレーション(クッキーの設定を含む)を行いたい場合は、mechanizeをご覧ください。シミュレーション機能はほぼ完成しています(残念なことにJavascriptのサポートはありません)。私はそれを使っていくつかのスクレイパーを構築しました。

+0

リモコンのブラウザソリューションがいくつかあります。私はセレンを好きです。特に、Xwindowsの仮想フレームバッファでそれを実行できるからです。 (スクリーンショットはまだ問題なく機能しています)。 –

+0

mechanizeはブラウザの自動化ではなく、HTTPリクエストとレスポンスのレベルでブラウザをエミュレートします。 – jkp

+0

これは面白そうだ、私はそれを見てみる –

関連する問題