文字列をLatin-1からUTF-8に変換してからLatin-1に戻します。

-1

システムは私の制御下にないlatin-1エンコード文字列（Ölandなど）を送信します。utf-8に変換できますが、latin-1には戻れません。文字列をLatin-1からUTF-8に変換してからLatin-1に戻します。

Öland 
b'\xd6land'

は今、どのように私はシステムを模倣する

：

text = '\xc3\x96land' # This is what the external system sends 
iso = text.encode(encoding='latin-1') # this is my best guess 
print(iso.decode('utf-8')) 
print(u"Öland".encode(encoding='latin-1'))

これは、出力は次のとおりです。

は、このコードを考えてみましょうか？お使いの外部システムは、あなたが最初にそれをエンコードとして送信されるので、それをコードするのではなく、それをデコードしなければならないあなたにそれを送信した場合は明らか '\xc3\x96land'は '\xd6land'

出典

2016-08-14 Tomek

入力はLatin-1ですか。 "Ö"はエンコードに2バイト必要はありません。実際に0xD6は正しく見える：https://de.wikipedia.org/wiki/ISO_8859-1 – Thilo

正直なところいいえ。ラテン1はちょうど私の最高の推測です。 – Tomek

あなたの入力はすでにUTF-8ですか？ 'Ö\t c3 96 \t大文字の大文字の文字 ' – Thilo

ではありません。

エンコードする必要はありません！

hey=u"Öland".encode('latin-1') print hey

この?land

print hey.decode('latin-1') のような出力を提供します。このÖland

出典

2016-08-14 06:07:38 ashim888

のような出力を与える外部のシステムがすでにUTF-8にデータを送信判明。前後に文字列を変換すると、次のように動作します：

#!/usr/bin/env python3.4 
# -*- coding: utf-8 -*- 

text = '\xc3\x96land' 
encoded = text.encode(encoding='raw_unicode_escape') 
print(encoded) 
utf8 = encoded.decode('utf-8') 
print(utf8) 

mimic = utf8.encode('utf-8', 'unicode_escape') 
print(mimic)

と出力

 
b'\xc3\x96land' 
Öland 
b'\xc3\x96land'

をご支援いただきありがとうございます！

出典

2016-08-14 07:20:33 Tomek

文字列をLatin-1からUTF-8に変換してからLatin-1に戻します。

答えて

関連する問題