UTF-8文字列を中国語に変換するには？

-3

は、ここに私のコードです。（Pythonのバージョン3.5）UTF-8文字列を中国語に変換するには？

log =os.path.join(sys.path[0],'log') 
f=open(log,'r',encoding='utf-8') 
s=f.read() 
r=s.decode('utf-8')

私は、エラーメッセージが表示されます。この時点で。

AttributeError: 'str' object has no attribute 'decode'

そしてlogファイルがこれを好むことがあります。実際に

\/div>\n\t<\/div>\n\t<\/div>\n <!-- <div class=\"search_feedback\">\n <p>\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5<a href=\"javascript:void(0);\" suda-data=\"key=tblog_search_v4.1&value=weibo_suggest\" node-type=\"suggest\">\u53d1\u8868\u610f\u89c1<\/a>\u6216\u60a8\u53ef\u4ee5\u5173\u6ce8\u840c\u5c0f\u641c<a href=\"http:\/\/weibo.com\/wbsearch\" suda-data=\"key=tblog_search_v4.1&value=weibo_xiaosou\" title=\"\u6b22\u8fce\u8c03\u620f\u6700\u840c\u5b98\u535a\u5c4c\u4e1d~~\">@\u5fae\u535a\u641c\u7d22<\/a>\u83b7\u53d6\u641c\u7d22\u6280\u5de7\u3002<\/p>\n <\/div> -->\n<\/div>"})</script> 
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_common_searchHistory","js":["apps\/search_v6\/js\/pl\/common\/searchHistory.js?version=20160324190000"],"css":["appstyle\/searchV45\/css_v6\/pl\/pl_history.css?version=20160324190000"],"html":""})</script>

、それはHTMLの組み合わせと、それは'と"、通訳を多く含んでいるので、私は思うexecを使用してUTF-8 characters.WhenですエラーSyntaxError: EOL while scanning string literalを返しました。

解決方法はありますか？

出典

2016-03-25 程书意

あなたはpython 3 's.encode（" utf-8 "）'でデコードしないでstrをエンコードすることができます。strはunicodeなので、それを印刷するだけです。あなたはその文字列で何をしていますか？ –

ありがとうございます。しかし、問題にはいくつかの変更があります。 –

興味のあるものhtmlで何をしていますか？ –

その後、bytes.decode('unicode_escape')を使用し、bytes/binaryとしてファイルを読む：

>>> b'\\">\\n <p>\\u6b22\\u8fce\\u63d0\\u4ea4'.decode('unicode_escape') 
'">\n <p>欢迎提交'

このようにあなたができる：

log = os.path.join(sys.path[0],'log') 
with open(log, 'rb') as f: 
    s = f.read() 
    print(s.decode('unicode_escape'))

をまた、あなたは文字列の完全なPythonののreprを持っている場合は、"\u8f6c\u53d1"を言います（あなたの質問の文字列とは異なります）、ast.literal_eval()：

>>> s = '"\\u8f6c\\u53d1"' 
>>> print(s) 
"\u8f6c\u53d1" 
>>> import ast 
>>> u = ast.literal_eval(s) 
>>> print(u) 
转发

出典

2016-03-25 10:52:31

@程书意私の編集を参照してください。 –

@程书意あなたのコメントの後に追加した最初の部分：D 'bytes.decode（ 'unicode_escape'）' –

多分、この文字列は少し複雑です。 –

次の情報が役立つ場合があります。私はthis sentence with some UTF-8 characters\u8f6c\u53d1推測

In [25]: s='this sentence with some UTF-8 characters\u8f6c\u53d1'.encode('utf-8') 

In [26]: s.decode('utf-8') 
Out[26]: 'this sentence with some UTF-8 characters转发' 

In [34]: type('this sentence with some UTF-8 characters\u8f6c\u53d1') 
Out[34]: builtins.str 

In [35]: type('this sentence with some UTF-8 characters\u8f6c\u53d1'.encode('utf-8')) 
Out[35]: builtins.bytes 

In [36]: type('this sentence with some UTF-8 characters\u8f6c\u53d1'.encode('utf-8').decode('utf-8')) 
Out[36]: builtins.str

はAとなどのために（アスキーがUnicodeで同じである） Pythonは72（Aのための何でもUnicodeコードポイント）を保持している場合、私はわからないUnicodeコードポイントを含む文字列です。..

出典

2016-03-25 10:56:30 eugene

プログラムの先頭に '#coding：utf8'を使用してください。

出典

2016-03-25 12:41:17

UTF-8文字列を中国語に変換するには？

答えて

関連する問題