FeedParserからURLと画像を削除する

私はhttp://code.google.com/p/feedparser/を使って簡単なニュースインテグレータを書いています。FeedParserからURLと画像を削除する

しかし、純粋なテキスト（<p>タグ）が必要ですが、URLまたは画像はありません（つまり、<a>または<img>タグなし）。

これを行うには、次の2つの方法があります。

1.ソースコードを編集します。 http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py

class _HTMLSanitizer(_BaseHTMLProcessor): 
    acceptable_elements =[....]

単に&のimgタグを削除します。

import feedparser 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a') 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img')

私はfeedparserを使用する場合は、最初の2個のタグを削除します。

どの方法が優れていますか？

その他の方法はありますか？

ありがとうございます！

出典

2012-03-12 Susan Mayer

-1

通常、より速く、これはPythonのtimeit moduleを使用して判断できます。しかし、あなたの場合、私はソースコードを変更したくないのですが、2番目のオプションに固執します。メンテナンス性に役立ちます。

その他のオプションには、カスタムパーサー（最高速度のC拡張子を使用）を作成するか、サイトのテンプレートエンジン（Djangoがおそらく？）でこれらのタグを削除することができます。さて、私は私の心を変えました、最後の解決策は、最高の周りに見える...

出典

2012-03-12 13:51:23 hymloth

FeedParserからURLと画像を削除する

答えて

関連する問題