<div>
の束を含むHTML文書があります。子は<p>
、内は<href>
です。目標はこれです、美しいスープ - 外側のタグを外す
- は取り除か各の終わりに
<div>
と<p>
タグ - を削除
<div>
</br>
を追加する例
ように、この:
<div>
<p>
<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
</p>
</div>
はこのようになります。
<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
</br>
現在
は、これまでのところ、私のコードは次のとおりです。
from bs4 import BeautifulSoup
for div in soup.find_all(name=re.compile(r'div')):
print div
しかし、すべての例ではなく、実際のタグを内部テキストを置き換えるために指すように思われます。また、bs3でこれを行う方法がある場合は、他のすべてのコードが現在v3を使用しているので理想的です。
誰かが正しい方向に私を指すことができますか?おかげで、
あなたが直接 'を取得することはできませんか'? – furas