Pythonでhtmlタグをフィルタリングする方法

私は記事付きのhtml文書を持っています。テキストの書式設定に使用できるタグがいくつかあります。しかし、私のテキストエディタは、フォーマットに不必要なタグをたくさん使います。これらのタグをフィルタリングするためのPythonプログラムを作成したいと思います。そのようなプログラムの主要な論理（構造、戦略）は何でしょうか？私はPythonで初心者であり、実際の実用的な課題を解決することでこの言語を学びたいと思っています。しかし、私はいくつかの一般的な概要を開始する必要があります。Pythonでhtmlタグをフィルタリングする方法

出典

2016-11-29 Maxim Zagoruyko

をhtmlparser使用することができますか？ – Jarvis

使用BeautifulSoup：

ここ

from BeautifulSoup import BeautifulSoup 
html_string = #the HTML code 
parsed_html = BeautifulSoup(html) 
print parsed_html.body.find('div', attrs = {attrs inside html code}).text

、divは単なるタグでは、あなたは、そのテキストを使用すると、フィルタリングしたい任意のタグを使用することができます。

出典

2016-11-29 11:08:59 Jarvis

要件にはあまり明確ではありませんが、BeautifulSoupのような既製のパーサーをPythonで使用する必要があります。

あなたは見逃すことになるかについて知らないが、あなたは正規表現を使用することができますtutorial here

出典

2016-11-29 11:10:43 Tobey

を見つけることができます。上記の機能は、検索します

re.sub('<[^<]+?>', '', text)

...

そうあなたがお探しのものが見つかりました

from HTMLParser import HTMLParser 

class MLStripper(HTMLParser): 
    def __init__(self): 
     self.reset() 
     self.fed = [] 
    def handle_data(self, d): 
     self.fed.append(d) 
    def handle_entityref(self, name): 
     self.fed.append('&%s;' % name) 
    def get_data(self): 
     return ''.join(self.fed) 

def html_to_text(html): 
    s = MLStripper() 
    s.feed(html) 
    return s.get_data()

出典

2016-11-29 11:22:21

Pythonでhtmlタグをフィルタリングする方法

答えて

関連する問題