2016-04-11 8 views
0

私はPythonを使用してウェブサイトをスクラップしていますが、ウェブサイトはjavascriptでレンダリングされており、すべてのリンクはjavascriptから取得しています。だから、私がrequest.get(url)を使うと、それはソースコードを与えるだけで、javascriptで生成される他のリンクではありません。これらのリンクを自動的に削る方法はありますか?JavaScriptをスクラップして、PythonのHTMLページをレンダリングする

また、ここで説明したようなものを試しました。Ultimate guide for scraping JavaScript rendered web pages。しかし、それはロードするのが遅すぎます。

Mechanize、Phantomなどのライブラリを使用すると、より高速な方法がありますか? (注:PyQ4を使用しようとしましたが、遅すぎます - より速い解決策を探しています)。

答えて

0

あなたはPhantomJsを試すかCasperjsファントムの上に書かれた多くのノードのラッパーがあり

、最も効率的でスケーラブルなの一つcasperjsすることができますが、「ゴーストタウン」

です
関連する問題