2017-10-07 6 views
0

を取得していないbeautifulsoup使用してタグを読み取る:tsetmc.comから、私はいつも私のようないくつかの名前とIDの読み取りしようとしているなし

など
<a class="inst" href="loader.aspx?ParTree=151311&amp;i=3823243780502959" 
target="3823243780502959">رتكو</a> 

i = 3823243780502959 

を。ここに私のコードは

import requests 
from bs4 import BeautifulSoup 
url = 'http://www.tsetmc.com/Loader.aspx?ParTree=15131F' 
page = requests.get(url) 
soup = BeautifulSoup(page.content , 'html.parser') 
first_names_Id = soup.find_all('a',class_='isnt') 
print (first_names_Id) 

ですが、それはNoneを返します。

これらのタグを読み取るにはどうすればよいですか?他のタグと同じ問題があります。

答えて

0

私は、解析に必要なウェブサイトにアクセスする要求の代わりにセレンを使用し、あなたが望む結果を得ました。

私はまた、あなたは、クラス属性値のタイプミスを持っていることに注意してウェブサイトあなたは、解析ではJavaScript

でレンダリングされたいので、リクエスト・ライブラリはセレンライブラリなどのHTML応答を返すされていない理由はあると信じてそれは 'isnt'ではなく 'inst'でなければなりません。

コード:

from selenium import webdriver 
from bs4 import BeautifulSoup 

driver = webdriver.Chrome() 
url = 'http://www.tsetmc.com/Loader.aspx?ParTree=15131F' 
driver.get(url) 
soup = BeautifulSoup(driver.page_source, 'html.parser') 
first_names_Id = soup.findAll('a', {'class': 'inst'}) 
print(first_names_Id) 

出力:

[<a class="inst" href="loader.aspx?ParTree=151311&amp;i=33541897671561960" target="33541897671561960">واتي</a>, <a class="inst" href="loader.aspx?ParTree=151311&amp;i=33541897671561960" target="33541897671561960">سرمايه‌ گذاري‌ آتيه‌ دماوند</a>, <a class="inst" href="loader.aspx?ParTree=151311&amp;i=9093654036027968" target="9093654036027968">طپنا7002</a>, <a class="inst" href="loader.aspx?ParTree=151311&amp;i=9093654036027968" target="9093654036027968">اختيارف رمپنا-7840-19/07/1396</a>, <a class="inst" href="loader.aspx?ParTree=151311&amp;i=19004627894176375" target="19004627894176375">طپنا7003</a>, <a class="inst" href="loader.aspx?ParTree=151311&amp;i=19004627894176375" target="19004627894176375">اختيارف رمپنا-8340-19/07/1396</a>, **etc**] 
関連する問題