私は調査のためにウェブサイトを掻き回そうとしています。スクレーパーにページソースを読み込ませ、それをローカルのHTMLファイルに追加して、キャンパス外のデータを分析できるようにします。私はBeautifulSoup
とScrapy
を試しましたが、私はSelenium
を使用して、私の大学の認証システムをナビゲートするページとやりとりする必要があることを発見しました。Page HTMLを掻き集めて、Seleniumの次のリンクに従う方法
スクリプトを実行すると、そのページに移動してリンクをクリックしますが、最初のページのHTMLのみが保存されます(このコードは私の質問に接しているからです)。次に、リンクをクリックするたびにそのページのHTMLを複製して追加します。
Selenium
を使用して次のページのリンクをクリックし、HTMLをスクラップし、最後のページに到達するまでファイルに保存するにはどうすればよいですか?
編集:exceptにAttributeErrorを追加し、次のエラーを受け取りました。
selenium.common.exceptions.StaleElementReferenceException:メッセージ:参照 古い要素:要素はページの文書に添付されていないが
私の仮定は、私が理由である、.click()
を遅くする必要があるということです私はもともと暗黙の待っていたが、それはトリックをやっているようではありません。
を除いて、あなたの裸を取り除くと、あなたがはるかに有益なエラーメッセージ – n1c9
ありがとうn1c9を得るでしょう、私は除いにはAttributeErrorを追加し、それは私が上に追加のエラーコード与えた:StaleElementReferenceExceptionを。 – woodNUFC
ページに何かポップインがありますか?それとも通常のように次のページに移動しますか?また、 'implicitly_wait(num)'は、あなたがウェブドライバを初期化するときに設定されるはずですが、それは文体的なものです。 – n1c9