2017-08-06 8 views
0

()関数を.headのようなもの、私は、次のBeautifulSoupオブジェクトを持っている:BeautifulSoup:パンダ

from bs4 import BeautifulSoup 
import requests 
import re 

url = 'https://www.adviserinfo.sec.gov/IAPD/content/viewform/adv/Sections/iapd_AdvPrivateFundReportingSection.aspx?ORG_PK=161227&FLNG_PK=05C43A1A0008018C026407B10062D49D056C8CC0' 
html = requests.get(url) 
soup = BeautifulSoup(html.text, "lxml") 

私が探している何がパンダで.head()関数のようなものです。フレームの上部で何かを見たいのですが、オブジェクトが長すぎて上にスクロールできません。

私は何度も見てきましたが、まだ何も見つかりませんでした。どんな助けもありがとうございます。

+0

* * *の最初の数行は? –

+2

いい考えですが、パンダと違って、これはフラットではなく階層的なデータです。 'soup.prettify()。splitlines()[:20]' –

+0

のような何かをお探しですか?あなたは*単純にhtmlを切り捨てることができますが、そのためには 'BeautifulSoup'は必要ありません(またHTMLも有効ではありません)。 – SwiftsNamesake

答えて

2

この問題はBeautifulSoupに固有のものではない、それは@cᴏʟᴅsᴘᴇᴇᴅとして文字列を切り捨てるの問題だと言う:必要に応じて

numlines = 20 
print('\n'.join(soup.prettify().splitlines()[:numlines])) 

numlinesを調整します。 html.textを使用することもできます。これは、ドキュメントの構造を決して扱っていないためです。