私はさまざまなウェブサイトからウェブページをクロールしており、さまざまなエンコードがあります。私が取得エンコーディングのサンプルがある -任意のエンコーディングをPythonのutf8に変換しますか?
- Big5の
- TIS-620
- UTF-16LE
- SHIFT_JIS
- EUC-JP
- MacCyrillic
- KOI8-R
より一般的なエンコーディングとは異なります。上記のエンコーディングを使用してデコードすることで、Webページのユニコードソースを取得できます。
私の質問はこれです:私はutf8としてすべてのファイルを保存したいと思います。 utf8を使用してユニコードソースをエンコードすると、すべてのWebページで使用できますか? utf8はすべてのユニコードコードポイントをサポートしていますか?
名前の「UTF」部分は、Unicode変換形式を表します。「UTF -...」のいずれのエンコーディングも、実際にすべてのUnicode文字を格納できます。 – bobince