2017-09-20 7 views
0

BeautifulSoupを使用してウェブサイトから求人データを盗んでいます。私は必要なことをする作業コードを持っていますが、求人情報の最初のページだけを掻き分けています。私は各ページをこすり落とすためにURLを反復的に更新する方法を考え出すのに問題があります。私はPythonに慣れず、同様の質問に対するいくつかの異なる解決策を見てきましたが、それらを私の特定のURLにどのように適用するかを理解していません。私は、URLを繰り返し更新する必要があると思うか、何とか次のボタンをクリックして、各ページを通して既存のコードをループする必要があります。私はどんな解決策にも感謝します。BeautifulSoupでウェブを掻き集めるためにウェブサイトの各ページをループする方法

URL:https://jobs.utcaerospacesystems.com/search-jobs

+1

ブラウザのデベロッパーコンソールのネットワークタブを開き、バックグラウンドでajaxリクエストを送信しています。 – Fabricator

答えて

0

まず、BeautifulSoupはGETing Webページとは何の関係もありません - あなたは、Webページに自分自身を取得し、処理のためにBS4にそれを養います。

あなたがリンクしているページの問題は、それがjavascriptであることです。ブラウザ(または他のjavascript VM)でのみ正しくレンダリングされます。

@Fabricatorが適切なトラックにあります。デベロッパーコンソールを見て、jsがサーバーに送信しているajaxリクエストを確認する必要があります。この場合は、クエリ文字列paramsを見てみましょう。これにはCurrentPageというパラメータが含まれています。これはおそらく対象とするものです。

+0

ありがとう...私のコーディングに関する知識はこれを達成するのに十分進んだとは思えませんが、ちょっと!少なくとも私は最初のページ(笑)から必要なものを掻き集めた。 – Christian

関連する問題