というファイルがUTF-8でとされていましたが、英語以外の文字のいくつかには奇妙なエンコーディングがあります。例えば、この謎の符号化では、ハングル文字列ミステリーUTF-8のようなエンコーディング
한국경북영덕군강구면
は次のように符号化される。
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB63F0xEC983F0xEB3F95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4
(太字の違い)ではなく、標準のUTF-8より:私は見ている
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB6810xEC98810xEB8D95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4"キリル文字や中国語の文字と同じ現象 - 一部の文字はUTF-8と同じエンコーディングを持ちますが、いくつかの文字は異なります。文字化けした文字は、文字化けしていない文字と同じバイト幅を持ち、拡張子セットの一部ではないことを確認しました。また、私はすでにではなく、 Java "Modified UTF-8"であることを確認しました。
これにはどのような考えがありますか?
ところで、私はコードや、最初にファイルを書いた人にはアクセスできません。
また、私はMac 10.11.6を使用していますが、それは何か関係があります。