私は最近JS主導のページを掻き集めています。私が知る限り、コンテンツをロードするには静的(HTMLページを使用できる状態)と動的に(生データからHTMLコードを作成する)の2通りの方法があります。私はXHRについて知っていて、私はいくつかの傍受に成功しています。レンダリングのないJSドリブンサイトのWebスクレイピング
しかし、私は奇妙なことに直面しています。サイトは、ページが完全に読み込まれた後にコンテンツが動的に読み込まれますが、XHRはありません。どのようにすることができますか?
私の推測です:内部のjsファイルは応答に基づいていくつかの隠された要求(データを転送する)と構築ページを作っています。 どうすればよいですか?
P.S.私はセレンベースのソリューションには興味がありません。それらはよく知られていますが、遅くて非効率的です。 P.P.S.私は主にバックエンドの開発者だから、私はJSに慣れていない。
あなたは[phantomjs](http://phantomjs.org/)または[prerender.io](https://prerender.io/)を試すことができます – abhishekkannojia
PhantomJSはオプションではありません - まだ遅すぎますが、偽装してください。 ioはいいようです - 私はそれを確認していただきますよ! –
あなたはそのサイトへのリンクを共有できますか?そして、どんな情報を抽出したいですか? – vold