2016-10-12 27 views
0

特定のウェブサイトから特定のHTMLデータを削り取ろうとしていますが、私が望む部分を削っていないようです。例えば、私は追従者の数をthis blogから削るという挑戦をしましたが、そうすることはできません。PythonでウェブサイトからHTMLデータを掻き集める

私はurllib、request、beautifulsoupとJam APIを使ってみました。

ここに私のコードは、現時点では次のようになります。

from bs4 import BeautifulSoup 
from urllib import urlopen 
import json 
import urllib2 

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/') 
soup = BeautifulSoup(html, "lxml") 
print soup 

は、どのように私はこのinstaceにフォロワーの数を引いて行くのでしょうか?

答えて

1

フォロワーはjavascriptによって読み込まれたウィジェットであるため、フォロワーをつかむことはできません。 HTMLの一部をcssクラスまたはidまたは要素で取得する必要があります。

例えば:

from bs4 import BeautifulSoup 
from urllib import urlopen 

html = urlopen('http://freelegalconsultancy.blogspot.co.uk/') 
soup = BeautifulSoup(html) 

assert soup.h1.string == '\nLAW FOR ALL-M.MURALI MOHAN\n' 
関連する問題