をチェックdivのコンテンツを抽出し、私はこのようなHTMLページがあります。パイソン/ BeautifoulSoup - H1テキスト
<div class="class1">
<div class="head">
<h1 class="title">Title 1</h1>
<div class="body">
<!-- some body content -->
</div>
</div>
</div>
<div class="class1">
<div class="head">
<h1 class="title">Title 2</h1>
<div class="body">
<!-- some body content -->
</div>
</div>
</div>
を私はタイトルが「Title 2
」に等しい場合にのみ、class body
でdiv
からコンテンツを抽出する必要があります。親コンテナには特定のIDまたはクラスがないため、div32の内容を認識するにはh1
のテキストが唯一の方法です。現時点では私はこのコードを使用します
from bs4 import BeautifoulSoup
# code to open the webpage
soup = BeautifulSoup(data, 'lxml')
body_content = soup.findAll('div', {'class':'class1'})[1]
をしかし、それは私が興味のdivは常にページの第二の一つであることを前提とするので、これは、非常にエレガントではありません - それはチェックしませんタイトル。