2017-06-09 15 views
0

動的Webページでは、全体のウェブページのコンテンツを抽出することは困難です。 特に、ページとして「オン・フライ」で生成されたそれらのコンテナー。 このコンテンツはcurl/wgetで保存することはできません。ブラウザでウェブページを表示している場合でも([ctrl] + Sは通常、単純なソースと画像やものなどの直接の依存関係を保存しますが動的コンテンツは保存しません:Firefoxでテスト済み)。全体のダイナミックcontenet((ダイナミック1を含む)がダウンロードされる?私は使用することができますレンダラーWebページをダウンロードしてください(CLIから)

何かを全体contenents後に撮影した「スナップショット」htmlソースの並べ替えを保存することができます任意の方法(可能またはブラウザのHTML5)があります

。CLIから 私は手動で簡単にすることでこれを行うことができます:それはヘッドレスブラウザです:

+1

はStackOverflowのへようこそ。あなたは現在の状態がこのサイトのトピックであり、_これは閉鎖されているかもしれないと質問します。 [ヘルプ]にアクセスして[質問が有効であること](http://stackoverflow.com/help/on-topic)を確認してください。回答する](http://stackoverflow.com/help/how-to-ask)。 –

答えて

0

PhantomJSを試してみて、多くの与えられたURLに非常に時間がかかるのだろう、すべての>コピー>ペースト

を選択>完全にレンダリングされたページを待ちますjavacriptを実行できる

$ phantomjs save_page.js http://example.com > page.html 

var system = require('system'); 
var page = require('webpage').create(); 

page.open(system.args[1], function() 
{ 
    console.log(page.content); 
    phantom.exit(); 
}); 
+0

それは私のために働いていない。 – lazydeveloper

関連する問題