2016-07-05 4 views
-1

入力文字列の一部としてhtmlエンコード文字をPythonでUTF8に変換しようとしています。私はÃとして追加の文字を取得しています。どのようにPythonでそれを取り除く。UTF-8 Pythonへの変換中に追加文字を取得する

例: 出力を「SlimRun ®」とします。 しかし、私はHTMLParserからエスケープ解除methondを使用していますSlimRun®

を取得しています()

答えて

0

UTF8を使用すると、100万人以上の文字をエンコードすることができますので、マルチバイトエンコーディングがあります。あなたはutf8でエンコードされた文字列をデコードする必要があります:

b'SlimRun\xc2\xae'.decode('utf8') 
+0

ここに私のコードです。読み込みsys HTMLParserからインポートHTMLParser h = HTMLParser()input = "SlimRun ®" 出力= h.unescape(入力) – Rainbow

+0

コードでは、「u'SlimRun \ xae」というユニコード文字列を取得します。 – Daniel

+0

私はraw-unicode-escapeを使ってÃを取り除くことができました。しかし今、文字列に&#xFFFDというhtmlエンコード文字が含まれていると、それは\ ufffdとして変換されます。それはasとして変換する必要があります。何か案が? – Rainbow

関連する問題