2017-01-27 11 views
-3

私はこのリンクをforbes .. http://www.forbes.com/global2000/list/から持っています。 2000年のトップ企業のテーブルを分析用のデータフレームにする必要があります。それ、どうやったら出来るの?このウェブサイトからテーブルをデータフレームに変換するにはどうすればよいですか?

+0

HTMLスクレイピングを実行するhttp://docs.python-guide.org/ja/latest/scenarios/scrape/ – Shijo

答えて

3

を直接使用することができます。基礎となる表はjson resposneから生成されます。

ヒント:ブラウザのネットワークタブでxhrリクエストの場合は、urlをご確認ください。

In [38]: df = pd.read_json('http://www.forbes.com/ajax/list/data?year=2016&uri=glo 
    ...: bal2000&type=organization') 

In [40]: df.shape 
Out[40]: (2001, 16) 

In [41]: df.head(2) 
Out[41]: 
    assets   ceo   country headquarters imageUri \ 
0 32718.0 Inge Thulin United States  Minnesota  3m 
1 7454.0 Simon Borrows United Kingdom United Kingdom 3i-group 

       industry marketValue  name position profits rank \ 
0  Conglomerates  102175.0  3M  200 4833.0 200 
1 Investment Services  6685.0 3i Group  1562 925.0 1562 

    revenue squareImage  state thumbnail  uri 
0 30274.0   NaN Minnesota  NaN  3m 
1 485.0   NaN  NaN  NaN 3i-group 
関連する問題