2012-03-12 11 views
0

私はhttp://code.google.com/p/feedparser/を使って簡単なニュースインテグレータを書いています。FeedParserからURLと画像を削除する

しかし、純粋なテキスト(<p>タグ)が必要ですが、URLまたは画像はありません(つまり、<a>または<img>タグなし)。

これを行うには、次の2つの方法があります。

1.ソースコードを編集します。 http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py

class _HTMLSanitizer(_BaseHTMLProcessor): 
    acceptable_elements =[....] 

単に&のimgタグを削除します。

2.

import feedparser 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a') 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img') 

私はfeedparserを使用する場合は、最初の2個のタグを削除します。

どの方法が優れていますか?

その他の方法はありますか?

ありがとうございます!

答えて

-1

通常、より速く、これはPythonのtimeit moduleを使用して判断できます。しかし、あなたの場合、私はソースコードを変更したくないのですが、2番目のオプションに固執します。メンテナンス性に役立ちます。

その他のオプションには、カスタムパーサー(最高速度のC拡張子を使用)を作成するか、サイトのテンプレートエンジン(Djangoがおそらく?)でこれらのタグを削除することができます。さて、私は私の心を変えました、最後の解決策は、最高の周りに見える...

関連する問題