2017-02-09 8 views
0

私はBeautifulsoup with Pythonを使用しています。 ハッシュを含むリンクから要素を取得しようとしています。ページネーションリンクです。#の後の部分はページ番号です。Beautifulsoupとハッシュのリンク#

これはうまくいきませんが、問題の原因は、urllib2がクライアント側の処理のためにURLの部分を処理してサーバーに送信されないためです。

だから私はChromeで開発ツールのネットワークタブを使用して、実際のURLをチェックし、それは私にこれを与える:

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

それため、サーバーがすべてでこのURLを好きではないように見えます私にこの奇妙な結果だけを含む空白のページを返す:{"filtersBlock":"\n\n

私の質問は、BeautifulSoupとのこれらの種類のリンクを処理する方法はありますか?

+0

BeautifulSoupを使用してDOMをクロールし、#を含むこれらのリンクを処理するSeleniumを使用してこれを行う方法が見つかりました。 #を含むリンクを 'driver.get(" www.myserver.com/products#/page-2 ")'と一緒にSeleniumドライバに渡すだけです。 – Laurent

答えて

0

BeautifulSoupを使用してDOMとSeleniumをクロールして#を含むこれらのリンクを処理する方法が見つかりました。 #を含むリンクをdriver.get("www.myserver.com/products#/page-2")のSeleniumドライバに渡すだけです。

関連する問題