私はこの記事(https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture)から記事のテキストを抽出し、底に法的なコンテナを除外しようとしています。テキスト部分は簡単ですが、コンテナを取り除くことはできません。私はそれを法律上の変数と分けて、使いやすくしました。ここでBeautifulSoup(パイソン)を持つ要素を除外する方法
は、これまでの私のコードです:
import requests
from bs4 import BeautifulSoup
base_url = 'https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture'
r = requests.get(base_url)
r_html = r.text
soup = BeautifulSoup(r_html)
legal = soup.find('div',{'class': 'legal-container'})
paragraphs = soup.find_all('p')
for text in paragraphs:
print text.get_text()
は、どのように私はこれについて行くべきですか?
除外する代わりに、すべての 'p'タグよりも優れた選択肢を定義することはできませんか? –
私はそれを試みましたが、良い方法を見つけることができないようです。リーガルコンテナ内のテキストを含むすべてのテキストは、
などのタグを含みます。法的コンテナは、
まで
の範囲内にあります。それらを排除するための良い方法がありますか? –
セレクタ 'div.article-main p'についてはどうですか?記事のすべての段落 –