UTF-16は可変長エンコードです。コードポイントは、1つまたは2つの16ビットコードユニット(すなわち、2または4バイト、および 'a'は2バイト)で符号化される。
UTF-32は固定幅であり、コードポイントあたり正確に32ビット(つまり4バイト)です。
あなたが見ている長さは、そのようなlenをnaically使ったときにBOM(\ xff \ xfeものがBOM)を含むため、膨らんでいるようです。
>>> 'a'.encode('utf-16')
b'\xff\xfea\x00'
BOM.....a....
>>> 'aaa'.encode('utf-16')
b'\xff\xfea\x00a\x00a\x00'
BOM.....a....a....a....
あなたがbitstring
モジュールを使用して、生のビットを見ればそれはあなたのための明確であるかもしれない:
>>> # pip install bitstring
>>> from bitstring import Bits
>>> Bits(bytes='a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> Bits(bytes='aaa'.encode('utf-32')).bin
'11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
BOM.............................a...............................a...............................a...............................
UTF-8を再び可変幅で、1-4の8ビット・ブロックを使用して、最初の128文字のASCIIにマッチします。これには 'a'が含まれます。ユニコード標準では、BOMがUTF-8で許可されていますが、その使用は必須でも推奨もしていません(意味がありません)。これは最初の例でBOMが表示されない理由です。
出典
2017-08-09 01:17:52
wim