私はhttp://code.google.com/p/feedparser/を使って簡単なニュースインテグレータを書いています。FeedParserからURLと画像を削除する
しかし、純粋なテキスト(<p>
タグ)が必要ですが、URLまたは画像はありません(つまり、<a>
または<img>
タグなし)。
これを行うには、次の2つの方法があります。
1.ソースコードを編集します。 http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py
class _HTMLSanitizer(_BaseHTMLProcessor):
acceptable_elements =[....]
単に&のimgタグを削除します。
2.
import feedparser
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a')
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img')
私はfeedparserを使用する場合は、最初の2個のタグを削除します。
どの方法が優れていますか?
その他の方法はありますか?
ありがとうございます!