私はurllibを使ってサイトからhtmlデータを取得しようとしていますが、いくつかのサイトではPythonでいくつかの未知の文字で終わっています

私はurllib.openurl.read（）を使ってサイトからhtmlデータを取得しようとしています。しかし、いくつかのサイトでは、私が得ているのはすべてデータリンクです* 6 \ xbdW \ xb6 \ xd6 \ xff \ xca \ x9d \ x9b0 | \ xc0 \ x96a \ xc7 \ xc8 \ xf7 \ xa7 \ x10- \ x8aM \ xf8 \ x * と私はそれが何であるか、なぜ私はこのようになっているのか分からない。私はグーグルでそれを試してみましたが、デコードの問題をエンコードしていると言いましたが、私もそれを試しましたが、運が上手く見えないので、この暗闇の中で私を案内してください。ここに私のコードです--->私はurllibを使ってサイトからhtmlデータを取得しようとしていますが、いくつかのサイトではPythonでいくつかの未知の文字で終わっています

url = "http://mangafox.me/manga/online_the_comic/c001/1.html" # for this site and some more its not working 
page = urllib.urlopen(url).read() 
print page

あなたはこのコードを印刷した後に起こっていることを知っています。

出典

2016-12-04 laslavinco

はなぜ 'requests'や美しいスープを使用しない：

あなたはこの質問で見てみる必要がありますか？ – jonrsharpe

このページのgzip形式には、データを取る前に解凍するようになった：それはGZIP形式を意味し、コードの始まりで

UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b in position 1: ordinal not in range(128)

0x8bを。

twitter trends api UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: unexpected code byte

出典

2016-12-04 17:55:25

私はurllibを使ってサイトからhtmlデータを取得しようとしていますが、いくつかのサイトではPythonでいくつかの未知の文字で終わっています

答えて

関連する問題