0
にユニコード(u
は、文字列の先頭にあります)コンバート私はセレンから読めるUTF8文字列にUnicode文字列だと思うものを変換する必要がUTF8文字列
しかし、どのような場合は、文字列が既にUTF8でありますエンコードされた?次に、マルチバイト文字はダブルエンコードされます
td.text.encode('utf-8').strip()
にユニコード(u
は、文字列の先頭にあります)コンバート私はセレンから読めるUTF8文字列にUnicode文字列だと思うものを変換する必要がUTF8文字列
しかし、どのような場合は、文字列が既にUTF8でありますエンコードされた?次に、マルチバイト文字はダブルエンコードされます
td.text.encode('utf-8').strip()
ユニコードのテキストの場合、utf-8に変換するエンコード操作を実行できます。既にutf-8になっている場合は、二重にエンコードされません。
AttributeError: 'bytes' object has no attribute 'encode
具体的な問題がありますか? unicode-stringはエンコーディングに依存しないと考えられており、エンコーディングはバイト文字列(基本的にはバイトシーケンス)を与えます。 – Felk
Pythonでは "UTF-8 encoded strings"はありません。文字列は一連のUnicode文字です。 UTF-8は一連の「バイト」値です。 – Tomalak