日本語の文字を含むと思われるthis dictionary fileを使用しますが、なんらかの理由で"ä¹™ 勹 月 ç”° 亀"
のような意味のない文字が表示されます。未知の文字列をUnicodeに変換する - Python
ファイル状態の導入:今使用中 」符号化方式は、もはやJIS x 0212
ためJIS x 208
と3バイトのためEUC-JP
と便利2バイトであり、このファイルのエンコーディングは、現在UTF-8
であり、そしてなど。 Unicodeを正しく処理するためには、ソフトウェアが固定長バイトに依存していないことが必要です。エンコード方法の変更の主な理由は、標準Unixコードで標準漢字JIS x 0213
が定義されていないことですそれ以前の日本語の符号化方式(EUC-JP
)。 "
私は、Python 3を使用して、それを復号化するために、成功せずにしようとした:
unknown_string = "𪚲 : 乙 勹 月 田 亀" decoded_string = unknown_string.decode('unicode_escape').encode('latin-1').decode('utf8') print(decoded_string)
(印刷𪚲での結果:A 1™å<äºの€°C「を朹)
unknown_string = "𪚲 : 乙 勹 月 田 亀" decoded_string = unknown_string.encode('latin1').decode('utf-8') print(decoded_string)
(UnicodeEncodeError: 'latin-1' codec can't encode character '\u0161' in position 2: ordinal not in range(256)
で結果)
また、バイトを見てみましたが、接続が見えません。たとえば、化成の16進数値は\xE5\x8C\x96
ですが、ファイル内で値が\xC3\xA5\xC5\x92\xE2\x80\x93
のåŒ-に置き換えられます。
元の日本語文字はどのように取得できますか?
試したコードの一部を投稿してください。 – Mitiku