2017-09-07 19 views
0

このコードは私のために働いていました。javascriptを使ったPython WebscrapeのWeb

from bs4 import BeautifulSoup 
from urllib.request import urlopen 

search = 'some_website' 
BeautifulSoup(urlopen(search), "lxml") 

ただし、次のエラーが表示されるようになりました。

HTTPError: HTTP Error 403: Forbidden 

JavaScriptの情報をスクラップする必要があるため、簡単なリクエストはできません。

hdr = {'User-Agent': 'Mozilla/5.0'} 
req = Request(site,headers=hdr) 
page = urlopen(req) 
soup = BeautifulSoup(page) 
print(soup) 

私はスープで次のようになります。

<noscript>Please enable JavaScript to view the page content.</noscript> 

"HTTPエラー403:禁止されています"というエラーが表示されているときに、JavaScriptをWebページからオフにするにはどうすればよいですか?事前に助けてくれてありがとう。

私はpythonを使用しています。3.詳しい情報が必要な場合はお知らせください。

+0

このコードは、最新バージョンでは動作しませんQWebPage' インポートPyQt5.QtWebKitWidgetsから 'https://stackoverflow.com/questions/45259232/scraping-google-finance-beautifulsoup/ –

+0

に私の答えをご覧ください。 PyQt5。彼らは "QWebPage"を使用する同様の選択肢を持っているかどうか知っていますか? – user3264602

答えて

0

QtWebKitはQt 5.5で廃止され、5.6では削除されました。

PyQt5.QtWebEngineWidgetsに切り替えることができます。 link

関連する問題