ファイルにpage_sourceをダウンロードしようとしています。しかし、私が取得するたびに:Python unicodeエラーなしでhtmlをダウンロード
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 (or something else) in
position 8304: ordinal not in range(128)
私はvalue.encode('utf-8')
を使用して試してみたが、それは同じ例外をスローするたびに(加えて、手動ですべての非ASCII文字を置き換えるためにしようとする)ようです。 htmlを「書き込み可能」形式にするための「前処理」する方法はありますか?
ファイルの実際のエンコーディングとは何ですか? –
UTF8の_instead of_ ASCIIを使用してください。 – SLaks