私はpython 2.7.12のリクエストとBeautifulSoupモジュールを使用してこのウェブスクレイピング演習を行ってきました。私の問題は、スープオブジェクトがIDに基づいて特定のtrを返すように見えないことと、idを持ついくつかの他のhtml要素が、以下のprintステートメントのものを含めてランダムに選んだことです。それがなぜ機能していないのでしょうか?どんな助けでも大歓迎です。BeautifulSoupが見つからない
import requests
from bs4 import BeautifulSoup as bs
head= {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36',
'Content-Type': 'text/html',}
r = requests.get('http://www.iii.co.uk/investment/detail?code=cotn:LSE:SEE&display=discussion', headers=head)
r_text = r.text
soup = bs(r_text, "html.parser")
print soup.find("tr",id="disc1-12056888")
print soup.find('table', id='discussion-list')
別のライブラリの代わりにBSを使用する特定の理由はありますか?簡単なことのために私は 'PyQuery'を使いたいし、DOMセレクタを使って情報を抽出します。 –
r_textを共有できますか? – Shijo
@RafaelAguilar nope。単にコメントのためにサイトをこすりたがっていました。そのためにPyQueryを提案しますか? – AndrewF