JavaScriptを使用してデータを出力するWebページをダウンロードしたいとします。 Wgetは他のすべてを行うことができますが、javascriptを実行します。でもjavacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール
のようなもの:Firefoxはライセンス交付を受けて "saveURL(www.mozilla.org、あるmyfile.html)"
は(残念ながらコマンドのようなものが存在しない)素晴らしいことです。
JavaScriptを使用してデータを出力するWebページをダウンロードしたいとします。 Wgetは他のすべてを行うことができますが、javascriptを実行します。でもjavacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール
のようなもの:Firefoxはライセンス交付を受けて "saveURL(www.mozilla.org、あるmyfile.html)"
は(残念ながらコマンドのようなものが存在しない)素晴らしいことです。
セレンのブラウザ自動化ツール(http://seleniumhq.org/)を見ると、Webページの訪問を自動化し、結果のHTMLを保存できます。
以前のプロジェクトでも同様の目的で大きな成功を収めました。
Windowsベースのアプリケーションの場合は、C#、Visual Basic、Delphiなどのプログラミング言語のブラウザコンポーネントを使用してページをロードし、コンテンツを覗いて保存することができます。ブラウザコンポーネントはIEレンダリングエンジンに基づいており、JavaScriptをサポートする必要があります。ウェブサイトhereのスナップショットに関する質問があります。あなたにいくらか役立つかもしれません。
また、独自のFirefox拡張機能を構築することもできます。詳細はhereをご覧ください(「次へ」ボタンはありません。左側のメニューはナビゲーションのためのもので、最初は混乱しています)。
私はセレンのための2番目のアレックスの提案です。 JavascriptがDOMを変更した後、出力HTMLをキャプチャできるように、ブラウザで実行されます。
ブラウザ主導のアプローチを使用する際の問題は、スクレイピングのプロセスを自動化するのが難しいことです。
お気に入りのプログラミング言語で「ヘッドレスブラウザ」を探します。代わりに、Jaxerを使用してDOMサーバーサイドをロードし、JavaScriptを実行してDOMを操作させてから、既に慣れ親しんだ同じJavaScriptを使用して変更したDOMをスクラップすることができます。これが私の好ましいアプローチです。
私が使用して前にこれを行っている:あなたは
何語を使用していますか? – UnkwnTech