JavaScriptをスクラップして、PythonのHTMLページをレンダリングする

私はPythonを使用してウェブサイトをスクラップしていますが、ウェブサイトはjavascriptでレンダリングされており、すべてのリンクはjavascriptから取得しています。だから、私がrequest.get(url)を使うと、それはソースコードを与えるだけで、javascriptで生成される他のリンクではありません。これらのリンクを自動的に削る方法はありますか？JavaScriptをスクラップして、PythonのHTMLページをレンダリングする

また、ここで説明したようなものを試しました。Ultimate guide for scraping JavaScript rendered web pages。しかし、それはロードするのが遅すぎます。

Mechanize、Phantomなどのライブラリを使用すると、より高速な方法がありますか？（注：PyQ4を使用しようとしましたが、遅すぎます - より速い解決策を探しています）。

出典

2016-04-11 Anonymous

あなたはPhantomJsを試すかCasperjsファントムの上に書かれた多くのノードのラッパーがあり

、最も効率的でスケーラブルなの一つcasperjsすることができますが、「ゴーストタウン」

です

出典

2016-04-11 11:15:10

JavaScriptをスクラップして、PythonのHTMLページをレンダリングする

答えて

関連する問題