2011-11-09 2 views
1

RSSフィードURLは、サイトのメタデータ(利用可能な場合)が利用可能です。 urllib2またはHTMLParserモジュールを使用してページのフィードURL(S)を抽出する方法はありますか?または、より良いモジュールがありますか?Pythonを使用したHTMLからのフィードURL

ありがとうございました。

答えて

2

lxmlが好ましい。これは非常に優れたAPIを備えており、XPathのサポートによりこれはかなり簡単に達成できます。

import lxml.html 
doc = lxml.html.parse(url_to_site) 
feeds = doc.xpath('//link[@type="application/rss+xml"]/@href') # list feed urls 
関連する問題