私は記事付きのhtml文書を持っています。テキストの書式設定に使用できるタグがいくつかあります。しかし、私のテキストエディタは、フォーマットに不必要なタグをたくさん使います。これらのタグをフィルタリングするためのPythonプログラムを作成したいと思います。 そのようなプログラムの主要な論理(構造、戦略)は何でしょうか?私はPythonで初心者であり、実際の実用的な課題を解決することでこの言語を学びたいと思っています。しかし、私はいくつかの一般的な概要を開始する必要があります。Pythonでhtmlタグをフィルタリングする方法
0
A
答えて
0
使用BeautifulSoup
:
from BeautifulSoup import BeautifulSoup
html_string = #the HTML code
parsed_html = BeautifulSoup(html)
print parsed_html.body.find('div', attrs = {attrs inside html code}).text
、div
は単なるタグでは、あなたは、そのテキストを使用すると、フィルタリングしたい任意のタグを使用することができます。
0
要件にはあまり明確ではありませんが、BeautifulSoupのような既製のパーサーをPythonで使用する必要があります。
あなたは見逃すことになるかについて知らないが、あなたは正規表現を使用することができますtutorial here
0
を見つけることができます。上記の機能は、検索します
re.sub('<[^<]+?>', '', text)
...
そうあなたがお探しのものが見つかりました
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def handle_entityref(self, name):
self.fed.append('&%s;' % name)
def get_data(self):
return ''.join(self.fed)
def html_to_text(html):
s = MLStripper()
s.feed(html)
return s.get_data()
関連する問題
- 1. RedcarpetのHTMLタグをオプションでフィルタリングする方法は?
- 2. PHP関数でHTMLタグをフィルタリングする
- 3. <options>タグをhtml/phpに追加/フィルタリングする方法
- 4. HTMLタグをフィルタリングしてPythonのエンティティを解決する
- 5. Python boto3フィルタリングRDSタグ
- 6. python webdriverでbtween htmlタグを入力する方法
- 7. R/PythonのでHTMLタグをカウントする方法
- 8. Pythonでピボットテーブルをフィルタリングする方法
- 9. sql query:親タグと子タグをタグ付きテーブルでフィルタリングする方法は?
- 10. タグから属性値を取得する方法html python 3.5.2
- 11. HTMLテーブルをフィルタリングする方法 - JS
- 12. Pythonでhtmlタグを解析する
- 13. AndroidスタジオのLogCatで複数のタグをフィルタリングする方法は?
- 14. HTMLタグ内のHTMLタグの内容をBeautifulSoupで解析する方法は?
- 15. Pythonリストをフィルタリングする方法は?
- 16. のpython - タグを抽出し、HTMLから属性 - ハードな方法
- 17. Django2.0とdjango-taggit0.22.1を使ってタグをフィルタリングする方法
- 18. アンドロイドアプリからBluetoothタグをフィルタリングする方法
- 19. HTMLページでXMLデータをフィルタリングする方法は?
- 20. javascriptでverical htmlテーブルをフィルタリングする方法
- 21. jquery picnetテーブルフィルタでhtmlをフィルタリングする方法
- 22. anglejsのHTMLコードでdateformatをフィルタリングする方法
- 23. Python 3を使用してHTMLタグから値を取得する方法
- 24. HTMLタグをPHPのHTMLに変換する方法
- 25. Pythonでlxmlを使用してhtml要素を別のタグで囲む方法
- 26. Jinja2でHTMLタグを自動エスケープする方法を避ける
- 27. HTTPModuleでhtmlタグを閉じる前にHTMLを挿入する方法
- 28. PythonのHTMLタグ修正
- 29. タグで要素をフィルタリングする
- 30. gitログをタグでフィルタリングするには?
をhtmlparser使用することができますか? – Jarvis