1
Beautifulsoupを使用して、タグで囲まれていない文字列を見つけて<p>
で囲んでいますが、その方法はわかりません。タグで囲まれていない文字列の検索方法
<p>string</p>
<figure class="image"> <img alt="" src="sample.jpg"/> </figure>
string,string,string<br/>
<p>string,string</p>
string
<p><a href="/test" target="_blank">string</a></p>
textexttext
<p>stringstring</p>
<p><a href="tel:xxxxxxxx" target="_blank">xxxxxxxxxx</a></p>
<div>textextext</div>
<p>string,string<br/>string</p>
私は、次の方法を試してみましたが、それは
from bs4 import BeautifulSoup as BS
html = """<p>string</p>
<figure class="image"> <img alt="" src="sample.jpg"/> </figure>
<p>string,string,string</p><br/> <-here
<p>string,string</p>
<p>string</p> <- here
<p><a href="/test" target="_blank">string</a></p>
<p>textexttext</p> <- here
<p>stringstring</p>
<p><a href="tel:xxxxxxxx" target="_blank">xxxxxxxxxx</a></p>
<div>textextext</div>
<p>string,string<br/>string</p>"""
soup = BS(html, "html.parser")
while True:
text = soup.find(text=True)
if not text:
break
if not text.parent.name in ['p', 'span', 'a', 'div']:
text.wrap(content.new_tag("p"))
は* BeautifulSoupを使用するには、*あなたが必要ですか? – zezollo