Pythonのデコードとエンコーディング、リスト要素utf-8

Pythonでのエンコーディングに関するもう1つの質問だと思います。私はこのプログラムを持っています：Pythonのデコードとエンコーディング、リスト要素utf-8

regex = re.compile(ur'\b[sw]\w+', flags= re.U | re.I) 
ergebnisliste = [] 
for line in fileobject: 
    print str(line) 
    erg = regex.findall(line) 
    ergebnisliste = ergebnisliste + erg 
ergebnislistesortiert = sorted(ergebnisliste, key=lambda x: len(x)) 
print ergebnislistesortiert 
fileobject.close()

私はsまたはwで始まる単語のテキストファイルを探しています。私の "ergebnislistesortiert"は並べ替えられた結果リストです。私は結果リストを印刷し、エンコーディングに問題があるようにappersます

[ 'そう'、 'WER'、 'のsp \のXC3']

「のsp \ xc3 'はspätと表示されます。ここで何が間違っていますか？なぜリスト要素はutf-8ですか？

「spät」を印刷するには、どうすれば正しいデコードができますか？

ありがとうございます！

出典

2017-12-28 Joschi

\xc3はUTF-8ではありません。それはU+00E4の完全なUTF-8エンコーディングの断片ですが、おそらくLatin-1デコーダー（エンコーディングを指定せずにバイトを読み取った場合、Python 2が行うことです）のようなもので読むのでしょう。 UTF-8シーケンスのバイトは\wと一致しません。

本当の修正点は、最初にPythonに読み込むときにデータをデコードすることです。新しいコードを書いているのであれば、おそらくPython 3に切り替えるのが最も簡単で最も簡単な方法です。

あなたはPython 2.7で立ち往生している場合は、入力ファイルを管理している、あなたは古いまで、適切な解決策を延期したい場合は、多少のPython 3互換のアプローチは、

import io 
fileobject = io.open(filename, encoding='utf-8')

のようなものです（あなたの両親に許可を求めてください）UTF-8入力ファイルをいくつかのレガシー8ビットエンコーディングに変換してください。

出典

2017-12-28 13:32:11 tripleee

Pythonのデコードとエンコーディング、リスト要素utf-8

答えて

関連する問題