2011-12-30 8 views
1

Pythonでは、返されるドキュメントの本文にいくつかの要素を見つけるためにさまざまなURLを解析しています。lxmlでPythonで解析されたHTMLページの現在のURLを取得するには?

import lxml.html as html 

url = 'http://www.linktowebsite.com' 
data = html.parse(url) 

for d in data.xpath('body'): 
    code code code 

いくつかのURLがしかし、別のページにリダイレクトして、私は、リダイレクト後に現在のURLを知りたい:私はそうのように、このためにlxmlのを使用しています。私はこれについてのlxmlのドキュメントに何も見つかりませんでした。

解析/リダイレクトされたページの現在のURLはどのようにして見つけることができますか?

+1

ここにクリーンでシンプルなhttp://stackoverflow.com/q/4902523/776084 – RanRag

答えて

3

使用data.docinfo.URLdocumentation

例:

In [22]: data = html.parse('http://httpbin.org/redirect/2') 

In [23]: data.docinfo.URL 
Out[23]: u'http://httpbin.org/get' 
+0

おかげで、見てください! – Roland

関連する問題