1
RSSフィードURLは、サイトのメタデータ(利用可能な場合)が利用可能です。 urllib2
またはHTMLParser
モジュールを使用してページのフィードURL(S)を抽出する方法はありますか?または、より良いモジュールがありますか?Pythonを使用したHTMLからのフィードURL
ありがとうございました。
RSSフィードURLは、サイトのメタデータ(利用可能な場合)が利用可能です。 urllib2
またはHTMLParser
モジュールを使用してページのフィードURL(S)を抽出する方法はありますか?または、より良いモジュールがありますか?Pythonを使用したHTMLからのフィードURL
ありがとうございました。
lxmlが好ましい。これは非常に優れたAPIを備えており、XPathのサポートによりこれはかなり簡単に達成できます。
import lxml.html
doc = lxml.html.parse(url_to_site)
feeds = doc.xpath('//link[@type="application/rss+xml"]/@href') # list feed urls