2017-07-19 4 views
0

私は、BeautifulSoupを使用しているGoogleの学者の著者からのすべての出版物の完全な著者リストを取得しようとしています。著者のホームページには各論文の著者名が切り捨てられているだけなので、完全なリストを得るためには論文のリンクを開く必要があります。その結果、私はいくつかの試みごとにCAPTCHAに遭遇しました。大量のGoogle ScholarページをURLで盗む

キャプチャを避ける方法はありますか(リクエストごとに3秒間一時停止するなど)?または、元のGoogle Scholarのプロフィールページを完全な著者リストにするにはどうすればよいですか?

答えて

2

最近、同様の問題に直面しました。あなたは十分な時間(のは、夜にあなたのパーサを起動しましょう)を持っている場合は、次のことができ

import time 
import numpy as np 

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds 

:私は、少なくともこのようなランダムむしろlonglasting睡眠を実装することにより、簡単な回避策で私の収集プロセスを緩和しましたあなたがキャプチャを取得しないことを保証するために、さらに大きな一時停止(3倍以上)を行います。

さらに、user-agentをサイトへのリクエストにランダムに変更することができます。これにより、さらにマスクされます。

関連する問題