2016-11-29 22 views
0

私は記事付きのhtml文書を持っています。テキストの書式設定に使用できるタグがいくつかあります。しかし、私のテキストエディタは、フォーマットに不必要なタグをたくさん使います。これらのタグをフィルタリングするためのPythonプログラムを作成したいと思います。 そのようなプログラムの主要な論理(構造、戦略)は何でしょうか?私はPythonで初心者であり、実際の実用的な課題を解決することでこの言語を学びたいと思っています。しかし、私はいくつかの一般的な概要を開始する必要があります。Pythonでhtmlタグをフィルタリングする方法

+0

をhtmlparser使用することができますか? – Jarvis

答えて

0

使用BeautifulSoup

ここ
from BeautifulSoup import BeautifulSoup 
html_string = #the HTML code 
parsed_html = BeautifulSoup(html) 
print parsed_html.body.find('div', attrs = {attrs inside html code}).text 

divは単なるタグでは、あなたは、そのテキストを使用すると、フィルタリングしたい任意のタグを使用することができます。

0

要件にはあまり明確ではありませんが、BeautifulSoupのような既製のパーサーをPythonで使用する必要があります。

あなたは見逃すことになるかについて知らないが、あなたは正規表現を使用することができますtutorial here

0

を見つけることができます。上記の機能は、検索します

re.sub('<[^<]+?>', '', text) 

...

そうあなたがお探しのものが見つかりました

from HTMLParser import HTMLParser 

class MLStripper(HTMLParser): 
    def __init__(self): 
     self.reset() 
     self.fed = [] 
    def handle_data(self, d): 
     self.fed.append(d) 
    def handle_entityref(self, name): 
     self.fed.append('&%s;' % name) 
    def get_data(self): 
     return ''.join(self.fed) 

def html_to_text(html): 
    s = MLStripper() 
    s.feed(html) 
    return s.get_data() 
関連する問題