javacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール

JavaScriptを使用してデータを出力するWebページをダウンロードしたいとします。 Wgetは他のすべてを行うことができますが、javascriptを実行します。でもjavacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール

のようなもの：Firefoxはライセンス交付を受けて "saveURL（www.mozilla.org、あるmyfile.html）"

は（残念ながらコマンドのようなものが存在しない）素晴らしいことです。

出典

2009-03-24 Anonymous

何語を使用していますか？ – UnkwnTech

セレンのブラウザ自動化ツール（http://seleniumhq.org/）を見ると、Webページの訪問を自動化し、結果のHTMLを保存できます。

以前のプロジェクトでも同様の目的で大きな成功を収めました。

出典

2009-03-24 23:16:33 Chaos

Windowsベースのアプリケーションの場合は、C＃、Visual Basic、Delphiなどのプログラミング言語のブラウザコンポーネントを使用してページをロードし、コンテンツを覗いて保存することができます。ブラウザコンポーネントはIEレンダリングエンジンに基づいており、JavaScriptをサポートする必要があります。ウェブサイトhereのスナップショットに関する質問があります。あなたにいくらか役立つかもしれません。

また、独自のFirefox拡張機能を構築することもできます。詳細はhereをご覧ください（「次へ」ボタンはありません。左側のメニューはナビゲーションのためのもので、最初は混乱しています）。

出典

2009-03-24 23:23:14 evilpenguin

私はセレンのための2番目のアレックスの提案です。 JavascriptがDOMを変更した後、出力HTMLをキャプチャできるように、ブラウザで実行されます。

出典

2009-03-24 23:55:32

ブラウザ主導のアプローチを使用する際の問題は、スクレイピングのプロセスを自動化するのが難しいことです。

お気に入りのプログラミング言語で「ヘッドレスブラウザ」を探します。代わりに、Jaxerを使用してDOMサーバーサイドをロードし、JavaScriptを実行してDOMを操作させてから、既に慣れ親しんだ同じJavaScriptを使用して変更したDOMをスクラップすることができます。これが私の好ましいアプローチです。

出典

2009-03-25 08:13:47

私が使用して前にこれを行っている：あなたは

出典

2010-03-17 06:26:38 hoju

javacriptを使用してコンテンツを生成するWebページの保存/ミラーリング/クロール

答えて

関連する問題