ループ内で複数のウェブサイトをこするとき、私は間の速度のかなり大きな差がある気づく、Pythonのウェブスクレイピング:睡眠と要求との間の差(ページ、タイムアウト= X)
sleep(10)
response = requests.get(url)
と、
response = requests.get(url, timeout=10)
つまり、timeout
ははるかに高速です。
はまた、両方のセットアップのために、私は、次のページを要求する前に、ページごとに少なくとも10秒の掻き取り持続時間を期待するが、これは当てはまりません。
- なぜこのようなスピードの違いがありますか?
- なぜページあたりスクレイピング時間は10秒未満ですか?
私はマルチプロセッシングを使用していますが、非マルチプロセッシングの場合も同様です。