私はBeautifulSoupを使ってforループ内の数千のWebサイトを解析しています。ここに私のコードからの抜粋です:美味しいスープのスピードアップ
def parse_decision(link):
t1 = time.time()
decisionpage = urllib.urlopen(link)
t2 = time.time()
soup = BeautifulSoup(decisionpage.read(), 'lxml')
t3 = time.time()
# ...
# Parsing happens here and returns a pandas dataframe
のコードが実行される永遠にかかるので、私は原因を調査し始め、BeautifulSoupはdecisionpageを読み取るためのにかかる時間は、多くの異なることがわかりました。ここでは、各ステップを完了するのにかかる秒の抜粋です:
Element | t2-t1 | t3-t2
1. | 0.073 | 60.023
2. | 0.096 | 0.005
3. | 0.096 | 60.016
4. | 0.064 | 0.006
1が見ることができるようにウェブサイトが同じ形式で、ほぼ同じ情報が含まれている本家、およそ毎秒のウェブサイトは、60秒かかります。 ウェブサイトは、これと同じ裁判所の決定です: http://www.nycourts.gov/reporter/3dseries/2003/2003_17749.htm
誰もがこのパフォーマンスの違いがそれを克服するためにどのように可能性が存在し、その理由のアイデアを持っていますか?どんな助けでも大歓迎です。
これはBeautifulSoupと関係がありますか? 60秒の数字を考えれば、あなたが掻いているウェブサイトがあなたを抑えていると思う傾向があります。 – user2357112