beautifulsoupとpythonを使用して複数のページでサイトをスクラップする方法はありますか？

私はウェブサイトを掻き回そうとしています。これはこれの続きです。 soup.findAll is not working for table beautifulsoupとpythonを使用して複数のページでサイトをスクラップする方法はありますか？

私は必要なデータを取得することができましたが、サイトには1日に複数のページがあります。いくつかの日は20ページと33ページを別のものにすることができます。私は最後のページに要素How to scrape the next pages in python using Beautifulsoup を取得することによって、このソリューションを実装しようとしていたが、私はサイト上でポケットベルのdivに着いたとき、私は私がすべてのページ内をこすりすることができますどのようにこの形式

<a class="ctl00_cph1_mnuPager_1" href="javascript:__doPostBack('ctl00$cph1$mnuPager','32')">32</a> 
    <a class="ctl00_cph1_mnuPager_1">33</a>

を見つけこすりしたいです毎日ページの量が変わることを前提としたサイトですか？ページの変更によりページURLは変更されません。 Jsのを実行することはできませんそれのため

出典

2017-09-12 e.iluf

このサイトのリンクを明らかにして、おそらく回避策を使用して迅速な返信を受け取ることはできますか？ – SIM

BS4は
まず、あなたがScrapyを使用しようとすることができ、いつでもこの問題を解決することはできません、これはanswer
あなたはそれ

出典

2017-09-12 20:31:32 AndMar

のためのセレンを使用することができます

私はSeleniumの使い方を学びます.BS4が仕事をしない状況を処理するのは簡単で効果的です。

サイトにログインしたり、検索ボックスにキーを入力したり、画面上のボタンをクリックしたりすることができます。言うまでもなく、ブラウザで何をしているのかを見ることができます。

私がBS4で何かしているときでも、スクレイピングプロジェクトの進捗状況を監視するために使用します。

出典

2017-09-12 21:18:53

セレンを見たい人もいます。私はこのようなことをやっている間blogpostを書いた：http://danielfrg.com/blog/2015/09/28/crawling-python-selenium-docker/

今、物事はクロムとfirefoxヘッドレスではるかに良いです。

出典

2017-09-12 21:24:08 danielfrg

beautifulsoupとpythonを使用して複数のページでサイトをスクラップする方法はありますか？

答えて

関連する問題