誰でも入力文字列から部分文字列を抽出する方法を教えてください。文字列からHTMLタグを抽出する
入力:
'<h3>freedom machines.</h3><p>dom.</p><br/><p>The robust display.</p>'
出力:
'<h3>freedom machines.</h3>'
私は正規表現でそれを行うにしようとしていますが、運。 ご意見はありますか?
は、私は私の文字列が任意のヘッダータグ(<h1>
、<h2>
または<h3>
)から開始するかどうかをチェックする必要があり、それがなければ、私はそのヘッダータグを抽出します。
私はstartswith
と試みたが、成功しません:
if input.startswith("<h"):
** Code to extract that h tag.
あなたのパターンを抽出しようとしていますか?もっと具体的にしてください – sharath
[美しいスープ](https://www.crummy.com/software/BeautifulSoup/)または[elementtree](https://docs.python.org/3/library/xml.etree.elementtree)を使用してください。 .html)を解析(x)します。 [決してregex](https://stackoverflow.com/a/1732454/4954037)。 –
私は既にBeautifulSoupを使用していますが、私の要件は少し異なります。だから私はスープの出力をstr型に変換しなければならなかったのです。 – user3476378