2016-11-05 11 views
3

に文字列にバイト:私が行う場合'\udcd0\udca0\udcd0\udcbe\udcd1\udc81\udcd0\udcbd\udcd0\udcb5\udcd1\udc84\udcd1\udc82\udcd1\udc8c'復号化は、私はバイトの行持っているのpython

を:

b'\udcd0\udca0\udcd0\udcbe\udcd1'.decode("utf8"), 

私が受け取る:

'\\udcd0\\udca0\\udcd0\\udcbe\\udcd1' 

私はそれを解読カント、なぜなら私は知らない、どのようにエンコードされた。少なくとも、我々は見ることができるので、それはutf-8ではないことがわかります。私が見たいと思うシンボルは、\x23と類似しています。どのように私はデコーダを発見し、それを解読することができますか?

P.S.私はそこにロシアのシンボルを見ることを期待しています

+0

http://stackoverflow.com/questions/436220/python-is-there-a-way-to-determine-the-encoding-of-text-file – Jakub

+0

@Jakubありがとう、何らかの理由で私は、示唆されたライブラリのいずれかをインストールすることはできません。他の方法はありますか? –

答えて

0

このように文字列を印刷できますが、出力はすべて「無効な文字」です。 Charbase.comによると

>>> string = u'\udcd0\udca0\udcd0\udcbe\udcd1\udc81\udcd0\udcbd\udcd0\udcb5\udcd1\udc84\udcd1\udc82\udcd1\udc8c' 
>>> print string 
���������������� 

、あなたの最初の文字が(uが '\ udcd0')無効な文字です。出力が正しいかもしれません。

+0

Ooh。ありがとう、それは事を明らかにする –