私はテキスト、テーブル、htmlでいくつかのWebページを解析しようとしています。すべてのページの段落数は異なりますが、すべての段落は開封<div>
で始まりますが、終了まで</div>
の終了は発生しません。 text1 <b>text2</b> (table_deleted) text3
BeautifulSoupでネストされたdivを解析する
実際の結果text1\n\ntext2some text heretext 3text2some text heretext 3 (table deleted)
from bs4 import BeautifulSoup
html = """
<h1>title</h1>
<h3>extra data</h3>
<div>
text1
<div>
<b>next2</b><table>some text here</table>text 3
</div>
</div>"""
soup = BeautifulSoup(html, 'html5lib')
tags = soup.find('h3').find_all_next()
contents = ""
for tag in tags:
if tag.name == 'table':
contents += " (table deleted) "
contents += tag.text.strip()
print(contents)
を使用して、「表」タグを交換し、それを変更することができ、なぜ解析祖先? – putonspectacles
ハァッ。私は自分のために物事を難しくするのが好きだと思います。それは本当にうまくいく。 :) – bluppfisk