2016-12-14 19 views
1

私は、非常に基本的な、短い、基本的な順序付けられていないリスト<ul>をWikipediaから取得しようとしています。私の最終目標はDataFrameに入れることです。 私の質問はどこから行くのですか?Basic BeautifulSup Wikipedia scrape

In [28]: from bs4 import BeautifulSoup 

     import urllib2 

     import requests 

     from pandas import Series,DataFrame 

In [29]: url = "https://en.wikipedia.org/wiki/National_Pro_Grid_League" 

In [31]: result = requests.get(url) 

In [32]: c = result.content 

In [33]: soup = BeautifulSoup(c) 

私はこのStackOverflowの上の任意の答えを見つけるように見えるカントので、私は何かアドバイスを誰も私を与えることができるいただければ幸いです。

Active teams[edit] 
Baltimore Anthem (2015–present) 
Boston Iron (2014–present) 
DC Brawlers (2014–present) 
Los Angeles Reign (2014–present) 
Miami Surge (2014–present) 
New York Rhinos (2014–present) 
Phoenix Rise (2014–present) 
San Francisco Fire (2014–present) 

答えて

2

まずあなたがページの正しい部分を見つけたいでしょう:
これは私が探している特定のリストです。これは、見出しをid="Active_teams"で探してから、次の<ul>要素を見つけて行うことができます。

from bs4 import BeautifulSoup 
import requests 

url = "https://en.wikipedia.org/wiki/National_Pro_Grid_League" 
r = requests.get(url) 
soup = BeautifulSoup(r.content) 

heading = soup.find(id='Active_teams') 
teams = heading.find_next('ul') 
for team in team: 
    print team.string 
+0

ありがとう!それはうまくいった。私は将来もっと多くの質問があると確信しています。 –