2012-01-25 5 views
2

私はクローラの基本構造を設定しました。今、私はいくつかのPHP駆動ウェブサイトでそれをリリースし、それは魅力のように動作します。現在、私はAjaxのコンテンツからデータシートを作成したいと思っています。Pythonクローラー。

現時点では私はMechanize for PYTHONとperlを使用してクローラを構築しています。 MechanizeモジュールはAJAXを実行しません。非同期のajaxによって構築されたコンテンツにはどうすれば到達できますか?

私には、自動化するための実際のブラウザであるSeleniumというものがあります。しかし、これは私の唯一の選択肢ですか?

答えて

1

JavaScript、DOMなどを理解するphantomjsのようなヘッドレスブラウザを実行できますが、JavaScriptを使用してコードを書く必要があります。好きなことをすることができます。

messyでも別の方法があります。

ボタンをクリックすると(FirefoxのFirebugまたはChromeの開発者ツールを使用して)どのようなリクエストが行われたかを確認できます。ページの背後で実行されているJavaScriptをリバースエンジニアリングして、あなたのPythonコードを使って同様のことをしようとするよりも、Spidermonkey

+0

私には、なぜ実際のjavascriptを)、それをいくつかのエグゼキュータまたはハンドラに送ります。それはすべての要求を行い、私に出力を返しますか?それとも、私はスパイダーモンキーを使うべきですか?お返事ありがとう –

+0

spidermonkeyモジュールは、PythonでJavascriptクラス、オブジェクト、関数の実装、Javascriptスクリプトと関数の '評価'と呼び出しを可能にします。 – RanRag

+0

こちらをご覧くださいhttp://meta.stackexchange.com/questions/5234/how-does-accepting-an-answer-work – RanRag

関連する問題