2016-12-23 7 views
-1

この質問は、hereと尋ねられた質問に似ていますが、その答えはあまり役に立ちませんでした。Pythonと美味しいスープを使ってDisqusのコメントを抽出する

Disqusを使用しているウェブページからコメントを抽出しようとしていますが、セクションにアクセスできません。

これは私がこれまで持っているもので、それは私がこれに取り組むしようとする可能性がどのようにとほとんど

import urllib 
import urllib2,cookielib 
from bs4 import BeautifulSoup 
from IPython.display import HTML 

site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146" 
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'} 
req = urllib2.Request(site,headers=hdr) 
page = urllib2.urlopen(req) 

soup = BeautifulSoup(page,"html.parser") 
title = soup.title.text 
print title 

任意のヒントはありませんか?

+0

ウェブページによって異なります。あなたが掻爬しようとしているサイトは、javascriptを使ってコメントを動的に読み込みます。したがって、urllibを使ってコメントを削ることはできません。代わりにSeleniumのようなものを使う必要があります。 –

+0

[PythonでWebページをスクレイプするJavaScriptページ]の複製があります(http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

答えて

0

私はJavaで無限のスクロールをダウンロードしようとしているときに同じ問題がありました。美しいスープを含む何百万ものことをした後、私はこの問題に取り組む最善の方法は、クロムでデバッグし、動的コンテンツがロードされるときに出てくる請願のURLを取得し、私はさまざまな方法でそれを呼び出すことができるように表現。

たとえば、無限のスクロールを有効にすると、Chromeのデバッグコンソールが開いていると、HTTP申請(おそらくHTTP-get)が表示されます。 URLは、ような構造を持っている場合:

ます。http:www.yourlink.com/get_comments/product/page_offset_numbertoload/

あなたは、のpythonでのHTTP請願書を作成し、それを送信し、応答を取得することができますあなたが探しているデータが格納されています。幸運の男!

関連する問題