サブ要素のないサブ要素:は、要素のすべてのサブ要素を取得しますが、私は次のHTML持っ
<div class="what-im-after">
<p>
"content I want"
</p>
<p>
"content I want"
</p>
<p>
"content I want"
</p>
<div class='not-what-im-after">
<p>
"content I don't want"
</p>
</div>
<p>
"content I want"
</p><p>
"content I want"
</p>
</div>
私はサブ要素ある段落タグからすべてのコンテンツを抽出しようとしているが<div class="what-im-after">
コンテナのコンテナですが、<div class="not-what-im-after">
コンテナ内にはコンテナはありません。
私が行うときに、この:
私は私に完全に理にかなって<div class='not-what-im-after>
、内のものを含め、すべての
<p>
タグを、取り戻す
soup = Beautifulsoup(html.text, 'lxml')
content = soup.find('div', class_='what-im-after').findAll('p')
。それが私が求めているものです。
私の質問は、別のSubElementに含まれていない限り、すべての<p>
タグを取得するようにPythonに指示する方法です。
優れている、毎回親を確認するより効率的なようです。私はBeautifulSoupの 'recursive = False'機能の適用を本当に理解していませんでしたが、今は行います。 – theeastcoastwest