2016-04-23 8 views
-1

ウェブページの内容を配列に読み込もうとしていますが、これまでに何度もやったことがあります。しかし、今回はサイトのコンテンツが動的で、ロードされたときに必要な特定のコンテンツがない一般的なページを取得するだけです。Pythonで動的Webコンテンツを分析する方法は?

次のようにページをフェッチし、それを格納するための基本的なプロセスは次のとおりです。だから、

from lxml import html 
import requests 
import webbrowser 
import time 
import pickle 

page = requests.get('http://www.website.com') 

tree = html.fromstring(page.content) 

、どのように私は、たとえば、アップロードについては、このようなオークションのリストなどの動的コンテンツを含むオークションサイトに行くのでしょうか?

答えて

1

動的コンテンツは、通常、JavaScriptとAJAXリクエスト(またはWebソケット)を使用して生成されます。これには2つの解決策があります:

  1. ページが使用するapiの場所と使い方を見つけ、それをPython側から呼び出します。これにより、ページのJavaScriptをリバースエンジニアリングする必要があります。

  2. Webブラウザのフレームワークを使用して、バックグラウンドでWebページをレンダリングし、コンテンツをクエリします。これはセットアップするのが最も難しいでしょう。

どちらの解決策も良い作業を必要とし、結局のところ、これが努力する価値があるかどうかを実際に検討する必要があります。

+0

知識の追求では、常に努力する価値があります。 –

関連する問題