モジュールencoding
次に、HTMLページ要求モジュール符号化は、異なるエンコードを提供次いでHTMLエンコード
コードの実際のセットエンコーディング異なる符号化を提供する要求:
import requests
URL = "http://www.reynamining.com/nuevositio/contacto.html"
obj = requests.get(URL, timeout=60, verify=False, allow_redirects=True)
print obj.encoding
出力:
ISO-8859-1
を
ここで、実際のエンコーディングセットHTMLでUTF-8
content="text/html; charset=UTF-8"
私の質問がありますされています
- はなぜ
requests.encoding
は、HTMLページで説明エンコーディングを別のエンコーディングを示しています?。
私はISO-8859-1でデコードし、すなわち値が変更を取得UTF-8でエンコードしないとき、それはUTF-8
に既にあるので、この方法objReq.content.decode(encodes).encode("utf-8")
を使用してUTF-8にエンコーディングを変換しようとしています)á
これに変更Ã
すべてのタイプのエンコードをUTF-8に変換する方法はありますか?
ありがとう、それは非常に有益だった:)。 – The6thSense
与えられたスニペットは 'URL'の' None'型エラーを生成します。例えば、 'http://www.uraniumenergy.com/contact_us/contact_information 'のように、これがなぜ発生するのか、回避する方法を教えてください。 – The6thSense
@ The6thense:考えていない。私はそれを試しても何のエラーもありません。トレースバックはありますか? –