私は、HTMLを解析してテキストを取り出し、各単語(または潜在的には各テキストスニペット)とともに表示されるタグのリストを返したいと思います。Pythonがタグリストを持つHTML戻り単語を解析する
(("Blah", "em"),
("blah", "em"),
("blah", "em"),
("blah", ""),
("again", ""),
("and", "i"),
("then", "i"),
("again", "i"))
か::それは何か返します
<em>Blah blah blah</em> blah again <i>and then again</i>
:このHTMLを与え例えば 、
(("Blah blah blah", "em"),
("blah again", ""),
("and then again", "i"))
はのためのツールやそれを行うための簡単な方法はありますか?
おかげ
これは役に立ちそうです。私はスタイリングタグと一緒に単語を抽出したいと思います。 –