2011-02-03 3 views
4

分割された2番目のJavaScriptの遅延を持つサイトを掻き集めようとしています。javascriptの画面遅延によるサイトの掻き取り

私は現在、スクレイピングにpythonを使用しています。私がページを取得するたびに、javascriptの遅延は完了せず、新しいDOMをまだ完全にロードしていません。

どうすればこのようなpgeを削ることができますか?

+0

スクラップしたいURLを投稿することはできますか?それとも、動作を再現する最小限の例を投稿できますか? – fmark

+0

urllib [2]を使用してページを取得していますか、またはブラウザを使用していますか?実際にDOMロードを実行しているのは何ですか? –

+0

この目的でSnapSearchを構築しました。 https://snapsearch.io/ JS、HTML5、SPAアプリのSEO用に設計されました。 – CMCDragonkai

答えて

1

信頼できる方法は、ウェブブラウザまたはウェブブラウザコントロール、eを介してそれを擦ることです。 g。 i-Macrosの場合scraping commandsです。それはまたPython/Linuxを介して動作します。

また、自分では、Windows上のWebBrowserコントロールを経由して、これをコーディングすることができます:http://www.codeproject.com/KB/cs/webbrowser.aspx

1

あなたは、Webブラウザのフルパワーを活用できるウェブスクレイパーを構築するためにMozillaを拡張することができます。すべてのデータがロードされ、DOMが構築されたら、XSLTを使用してDOMから必要なデータを抽出できます。初期ロード後にDOMが動的に変更された場合は、変更を待ついくつかの方法があります。詳細についてはhttp://www.gooseeker.comをご覧ください。 GooSeekerは誰にとっても同じようなツールを無料で公開しています。ほとんどのコードはjavascriptとreadibleであり、そこからどのように実行されるのかが分かります。

関連する問題