2017-05-15 8 views
2

を交換するには、次のコマンドのpython3エンコードの文書によると、Unicode文字

'Brückenspinne'.encode("utf-8",errors='replace') 

は私のバイトシーケンスb'Br??ckenspinne'を与える必要があります。しかし、Unicode文字は置き換えられませんが、それにもかかわらず、エンコード:

b'Br\xc3\xbcckenspinne' 

あなたは、私が実際にUnicode文字を解消する方法を教えてもらえますか? (私はテスト目的のためにreplaceを使用しますが、後で'xmlcharrefreplace'を使用するつもりです。完全に正直なところ、文字列としてすべてを保持して、xmlcharrefにユニコード文字を変換したいと思います)。

ありがとうございます。

答えて

2

utf-8エンコーディングは、文字üを表すことができます。交換は行われません。

文字を表すことのできない他のエンコーディングを使用します。例えば、ascii

>>> 'Brückenspinne'.encode("ascii", errors='replace') 
b'Br?ckenspinne' 

>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace') 
b'Brückenspinne' 
関連する問題