UTF-8 Pythonへの変換中に追加文字を取得する

-1

入力文字列の一部としてhtmlエンコード文字をPythonでUTF8に変換しようとしています。私はÃとして追加の文字を取得しています。どのようにPythonでそれを取り除く。UTF-8 Pythonへの変換中に追加文字を取得する

例：出力を「SlimRun ®」とします。しかし、私はHTMLParserからエスケープ解除methondを使用していますSlimRunÂ®

を取得しています（）

2016-07-05 Rainbow

UTF8を使用すると、100万人以上の文字をエンコードすることができますので、マルチバイトエンコーディングがあります。あなたはutf8でエンコードされた文字列をデコードする必要があります：

b'SlimRun\xc2\xae'.decode('utf8')

2016-07-05 18:03:23 Daniel

ここに私のコードです。読み込みsys HTMLParserからインポートHTMLParser h = HTMLParser（）input = "SlimRun ®" 出力= h.unescape（入力） – Rainbow

コードでは、「u'SlimRun \ xae」というユニコード文字列を取得します。 – Daniel

私はraw-unicode-escapeを使ってÃを取り除くことができました。しかし今、文字列に＆＃xFFFDというhtmlエンコード文字が含まれていると、それは\ ufffdとして変換されます。それはasとして変換する必要があります。何か案が？ – Rainbow

答えて