2017-09-12 8 views
0

私はウェブサイトを掻き回そうとしています。これはこれの続きです。 soup.findAll is not working for tablebeautifulsoupとpythonを使用して複数のページでサイトをスクラップする方法はありますか?

私は必要なデータを取得することができましたが、サイトには1日に複数のページがあります。いくつかの日は20ページと33ページを別のものにすることができます。私は最後のページに要素How to scrape the next pages in python using Beautifulsoup を取得することによって、このソリューションを実装しようとしていたが、私はサイト上でポケットベルのdivに着いたとき、私は私がすべてのページ内をこすりすることができますどのようにこの形式

<a class="ctl00_cph1_mnuPager_1" href="javascript:__doPostBack('ctl00$cph1$mnuPager','32')">32</a> 
    <a class="ctl00_cph1_mnuPager_1">33</a> 

を見つけこすりしたいです毎日ページの量が変わることを前提としたサイトですか?ページの変更によりページURLは変更されません。 Jsのを実行することはできませんそれのため

+0

このサイトのリンクを明らかにして、おそらく回避策を使用して迅速な返信を受け取ることはできますか? – SIM

答えて

0
  1. BS4は
  2. まず、あなたがScrapyを使用しようとすることができ、いつでもこの問題を解決することはできません、これはanswer
  3. あなたはそれ
0
のためのセレンを使用することができます

私はSeleniumの使い方を学びます.BS4が仕事をしない状況を処理するのは簡単で効果的です。

サイトにログインしたり、検索ボックスにキーを入力したり、画面上のボタンをクリックしたりすることができます。言うまでもなく、ブラウザで何をしているのかを見ることができます。

私がBS4で何かしているときでも、スクレイピングプロジェクトの進捗状況を監視するために使用します。

関連する問題