2011-07-11 13 views
0

私はpython 2.7でurl 'http://www.5min.com/handlers/SitemapHandler.ashx?type=videositemap & page = 1'を解析しようとしています。問題は、urlopenでurlを開いたときに、ソースが表示されず、奇妙な文字が表示されるときです。それはコード化されるかもしれません。pythonで.ashxファイルを解析する

+0

私にはまっすぐなXMLのようです。 –

+0

あなたが見ている「奇妙なキャラクター」が何であるか教えてください。 – Tremmors

答えて

1

あなたは.ashxファイルではなくwebserverの応答を解析しています。あなたのブラウザでそのURLを開きます。それはあなたがurlopenで開くときにPythonが見るものです。応答はXML形式であることを行っているように見える実際に

Cache-Control:private 
Content-Encoding:gzip 
Content-Length:1100193 
Content-Type:application/xml 
Date:Mon, 11 Jul 2011 20:21:40 GMT 
Server:Microsoft-IIS/7.5 
Set-Cookie:NSC_bobmztjt-5njo-opjq*80=ffffffff4304fd3345525d5f4f58455e445a4a423660;expires=Mon, 11-Jul-2011 20:23:42  GMT;path=/;httponly 
X-AspNet-Version:4.0.30319 
X-Powered-By:ASP.NET 
X-Server:fmv-m09 - www 

:これらは私が応答になったヘッダをしていることから、開口部

。 ElementTree(または好みのもの)でxmlを解析する必要があります。また、サーバーがgzip(ZipFile)としてエンコードされた応答を送信していることにも注意してください。urlopenが許可するかどうかによって、応答が送信される場合と送信されない場合があります。あなたがUrlopenで不器用に見える場合は、応答を解凍するためにpythonのZipFileを使ってみてください。

関連する問題