2017-10-20 51 views
0

にユニコード(uは、文字列の先頭にあります)コンバート私はセレンから読めるUTF8文字列にUnicode文字列だと思うものを変換する必要がUTF8文字列

しかし、どのような場合は、文字列が既にUTF8でありますエンコードされた?次に、マルチバイト文字はダブルエンコードされます

td.text.encode('utf-8').strip() 
+0

具体的な問題がありますか? unicode-stringはエンコーディングに依存しないと考えられており、エンコーディングはバイト文字列(基本的にはバイトシーケンス)を与えます。 – Felk

+0

Pythonでは "UTF-8 encoded strings"はありません。文字列は一連のUnicode文字です。 UTF-8は一連の「バイト」値です。 – Tomalak

答えて

0

ユニコードのテキストの場合、utf-8に変換するエンコード操作を実行できます。既にutf-8になっている場合は、二重にエンコードされません。

AttributeError: 'bytes' object has no attribute 'encode

関連する問題