javascriptの画面遅延によるサイトの掻き取り

分割された2番目のJavaScriptの遅延を持つサイトを掻き集めようとしています。javascriptの画面遅延によるサイトの掻き取り

私は現在、スクレイピングにpythonを使用しています。私がページを取得するたびに、javascriptの遅延は完了せず、新しいDOMをまだ完全にロードしていません。

どうすればこのようなpgeを削ることができますか？

出典

2011-02-03 user601144

スクラップしたいURLを投稿することはできますか？それとも、動作を再現する最小限の例を投稿できますか？ – fmark

urllib [2]を使用してページを取得していますか、またはブラウザを使用していますか？実際にDOMロードを実行しているのは何ですか？ –

この目的でSnapSearchを構築しました。 https://snapsearch.io/ JS、HTML5、SPAアプリのSEO用に設計されました。 – CMCDragonkai

信頼できる方法は、ウェブブラウザまたはウェブブラウザコントロール、eを介してそれを擦ることです。 g。 i-Macrosの場合scraping commandsです。それはまたPython/Linuxを介して動作します。

また、自分では、Windows上のWebBrowserコントロールを経由して、これをコーディングすることができます：http://www.codeproject.com/KB/cs/webbrowser.aspx

出典

2011-02-05 18:28:29 Alfredo2011

あなたは、Webブラウザのフルパワーを活用できるウェブスクレイパーを構築するためにMozillaを拡張することができます。すべてのデータがロードされ、DOMが構築されたら、XSLTを使用してDOMから必要なデータを抽出できます。初期ロード後にDOMが動的に変更された場合は、変更を待ついくつかの方法があります。詳細についてはhttp://www.gooseeker.comをご覧ください。 GooSeekerは誰にとっても同じようなツールを無料で公開しています。ほとんどのコードはjavascriptとreadibleであり、そこからどのように実行されるのかが分かります。

出典

2011-02-11 03:30:39 Fuller

javascriptの画面遅延によるサイトの掻き取り

答えて

関連する問題