2009-03-24 14 views
3

JavaScriptを使用してデータを出力するWebページをダウンロードしたいとします。 Wgetは他のすべてを行うことができますが、javascriptを実行します。でもjavacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール

のようなもの:Firefoxはライセンス交付を受けて "saveURL(www.mozilla.org、あるmyfile.html)"

は(残念ながらコマンドのようなものが存在しない)素晴らしいことです。

+0

何語を使用していますか? – UnkwnTech

答えて

4

セレンのブラウザ自動化ツール(http://seleniumhq.org/)を見ると、Webページの訪問を自動化し、結果のHTMLを保存できます。

以前のプロジェクトでも同様の目的で大きな成功を収めました。

0

Windowsベースのアプリケーションの場合は、C#、Visual Basic、Delphiなどのプログラミング言語のブラウザコンポーネントを使用してページをロードし、コンテンツを覗いて保存することができます。ブラウザコンポーネントはIEレンダリングエンジンに基づいており、JavaScriptをサポートする必要があります。ウェブサイトhereのスナップショットに関する質問があります。あなたにいくらか役立つかもしれません。

また、独自のFirefox拡張機能を構築することもできます。詳細はhereをご覧ください(「次へ」ボタンはありません。左側のメニューはナビゲーションのためのもので、最初は混乱しています)。

1

私はセレンのための2番目のアレックスの提案です。 JavascriptがDOMを変更した後、出力HTMLをキャプチャできるように、ブラウザで実行されます。

1

ブラウザ主導のアプローチを使用する際の問題は、スクレイピングのプロセスを自動化するのが難しいことです。

お気に入りのプログラミング言語で「ヘッドレスブラウザ」を探します。代わりに、Jaxerを使用してDOMサーバーサイドをロードし、JavaScriptを実行してDOMを操作させてから、既に慣れ親しんだ同じJavaScriptを使用して変更したDOMをスクラップすることができます。これが私の好ましいアプローチです。

関連する問題