2016-12-27 5 views
1

私はbs4とurllibを使用してGoogle Scholarのデータをスクレイピングしています。私は記事が出版される最初の年を取得しようとしています。たとえば、this pageから私は1996年を取得しようとしています。これは棒グラフから読み取ることができますが、棒グラフをクリックした後でなければなりません。私は次のコードを書いたが、棒グラフがクリックされる前に年を表示する。最初の発行年Google Scholar

from bs4 import BeautifulSoup 
import urllib.request 

url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ' 
page = urllib.request.urlopen(url) 
soup = BeautifulSoup(page, 'lxml') 
year = soup.find('span', {"class": "gsc_g_t"}) 
print (year) 

答えて

2

チャートの情報は、別のリクエストであるthis oneです。そこには、次のXPathに必要な情報を取得することができます。

'//span[@class="gsc_g_t"][1]/text()' 

やスープ:

soup.find('span', {"class": "gsc_g_t"}).text 
関連する問題