import requests
from lxml import html
page = requests.get('http://www.cnn.com')
html_content = html.fromstring(page.content)
for i in html_content.iterchildren():
print i
news_stories = html_content.xpath('//h2[@data-analytics]/a/span/text()')
news_links = html_content.xpath('//h2[@data-analytics]/a/@href')
私はこのコードを実行して、PythonのWebスクレイピングの仕組みを理解しようとしています。Pythonスクリプトの実行中に出力が出ないCNNからのニュース記事
CNNからトップニュースとそのリンクをスクラップしたいと思います。
私はPythonシェルでこれを実行すると、私が取得news_storiesとnews_linksの出力は次のとおりです。私はこれで間違っているつもりどこ
[]
私の質問であり、私が何を達成するためのより良い方法がありますこれ以上にしようとしている?
いや...美しいスープがはるかに簡単です...おかげで... –
は、コーディングをお楽しみください... –