2017-09-23 2 views
0

私は自分のpythonにhtml文書を入力したいと思います。Pythonでhtmlを入力するには

私はこのエラーを取得する:

UnicodeDecodeError: 'cp950' codec can't decode byte 0xbb in position
362: illegal multibyte sequence

このコードを使用:

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open(xxx.html)) 
print(soup) 

私が間違っているのは何を?

+0

は[UnicodeDecodeErrorの可能な複製である: 'UTF8' コーデックことができます'tデコードバイト0x9c](https://stackoverflow.com/questions/12468179/unicodedecodeerror-utf8-codec-cant-decode-byte-0x9c) –

答えて

0

エンコード/デコードの問題が発生しています。
はこれを試してみてください。

soup = BeautifulSoup(open('xxx.html', encoding='your xxx.html file encoding')) 

ファイルで「文字セット」を検索して「あなたのxxx.htmlエンコーディング」を見つけることができます。
そして、あなたは '='、 'UTF8' または 'XXX' の背後にあるcharset=utf-8または他のcharset=xxx
のようなものを取得します、あなたのxxx.htmlエンコーディング

関連する問題