2016-06-28 22 views
-1

私は段落タグの内容を取得するのに混乱します。段落の内容を取得

<div class="SomeID"> 
<p>What a voice! </p> 
</div> 

私はこの時点で

list = soup.find_all("div","SomeID") 

に達ししかし、どのように段落の内容を取得する。(どのような声!)

基本的な問題から、すべての段落タグの内容を取得することです

import urllib 
from bs4 import BeautifulSoup 

html = urllib.urlopen('http://www.dawn.com/news/1267272/democracys-woes').read() 
soup = BeautifulSoup(html, 'html.parser') 
list = soup.find_all("div","comment__body cf") 
print list 

答えて

1

あなたは一度CSS selectorでそれを行う実際にすることができます

soup.select_one("div.SomeID > p").get_text(strip=True) 

注ここ>が直接の親子関係を意味する:あなたは、単一のpの要素が必要な場合

for p in soup.select("div.SomeID > p"): 
    print(p.get_text(strip=True)) 

または、。

+0

両方が機能していません。私は質問を更新しています。親切にそれを見て一瞥してください。 –

+0

@AliMurtazaまあ、 'div.comment__body> p'は私のために働く。 – alecxe

+0

それが機能していない: インポートurllibは をBS4インポートBeautifulSoup のhtml = urllib.urlopen( 'http://www.dawn.com/news/1267272/democracys-woes').read() スープ= BeautifulSoupから(html、 'html.parser') #リスト= soup.find_all( "div"、 "comment__body cf") #print list list2 = soup.select_one( "div.comment__body cf> p")。get_text strip = True) 印刷リスト2 –

関連する問題