この質問は、hereと尋ねられた質問に似ていますが、その答えはあまり役に立ちませんでした。Pythonと美味しいスープを使ってDisqusのコメントを抽出する
Disqusを使用しているウェブページからコメントを抽出しようとしていますが、セクションにアクセスできません。
これは私がこれまで持っているもので、それは私がこれに取り組むしようとする可能性がどのようにとほとんど
import urllib
import urllib2,cookielib
from bs4 import BeautifulSoup
from IPython.display import HTML
site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146"
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page,"html.parser")
title = soup.title.text
print title
任意のヒントはありませんか?
ウェブページによって異なります。あなたが掻爬しようとしているサイトは、javascriptを使ってコメントを動的に読み込みます。したがって、urllibを使ってコメントを削ることはできません。代わりにSeleniumのようなものを使う必要があります。 –
[PythonでWebページをスクレイプするJavaScriptページ]の複製があります(http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –