2012-11-19 11 views
6

私は特定のWebページのWebスクレーパーを作成していますが、これは "urllib2.Request(MyURL)"と "BeautifulSoup"で行いますが、問題はページングがページングされていることですmyURLと、このリンクの後ろに、リンクをクリックして(同じmyURL /ページ内の)次のページがロードでのPythonからこのJavaScript関数を実行せずに今すぐ PythonのWebページでJavascriptメソッドを実行

{ javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 

として書かれたjavascriptの方法があり、私は得ることができませんページの完全なリスト。このWebページのすべてのページを取得できるように、PythonからこのJavascriptメソッドを呼び出すにはどうすればよいですか?

関連する質問が1つ見つかりましたhere(Rhino、V8、SeaMonkey)を使用することをお勧めしますが、これはまったく得られませんでした。可能であれば、いくつかのサンプルコードが必要です。

答えて

1

このような汚れた作業(インラインjs、ajaxページの読み込み)については、Seleniumを試してください。 Pythonやブラウザドライバでできることを正確にエミュレートすることができます。

キーワード 'selenium crawler'を使用してGoogleを検索することで、クローラとして使用する方法についていくつかの情報を得ることができます。

関連する問題