2017-11-13 9 views
0

私は、Webサイトから詳細を抽出するPythonスクリプトを作成しています。私のコードは以下の通りです。divクラス内のコンテンツを取得する方法

from urllib.request import urlopen as uReq 
from bs4 import BeautifulSoup as soup 

my_url = 'my_company_website' 

#opening up connection, grabbing the page 
uClient = uReq(my_url) 
page_html = uClient.read() 
uClient.close() 

#html parsing 
page_soup = soup(page_html, "html.parser") 

#grabs each product 
containers = page_soup.findAll("div",{"class":"navigator-content"}) 

print (containers) 

私は出力として、この内部のコンテンツをしたい、この

<div 
class="navigator-content" data-issue-table-model-state="" data-selected-issue="" data-session-search-state=""> 
</div> 

のような出力を取得しています。助けてください。

答えて

0

あなたはこれを試すことができます。

import re 
inside = re.split(r'>*</*div', containers)[1].split() 

insideがこのリストである:

['class="navigator-content"', 
'data-issue-table-model-state=""', 
'data-selected-issue=""', 
'data-session-search-state=""'] 
+0

@SidharthGokul、それはあなたのために働くのですか? – rodgdor

関連する問題