C＃のUTF-8バイトの混乱

System.Text.Encoding.UTF8.GetString(new byte [] { (byte)0xa0 });

は

"\u00a0"

にはなりませんか？

代わりに"\ufffd"が届いています。

https://en.wikipedia.org/wiki/Non-breaking_spaceによると、0xa0はUTF-8で有効な改行なしスペースである必要があります。

2017-02-14 CoderBrien

0xa0は、UTF-8で有効な非改行スペースである必要があります。

いいえ、そうではありません。これはLatin1とUnicode（またはUTF-16とUTF-32）文字セットの両方で有効です。

UTF-8エンコーディングでは、C2 A0とエンコードされています。一般に、0x80より小さい文字のみがUTF-8の1バイトにマップされます。

2017-02-14 02:33:51

ああ、ありがとう。だから、もし私が8バイトのテキストを0xa0のバイトがスペースであると考えられたら、それはおそらくLatin1のエンコードでしょうか？ – CoderBrien

U + 00A0から0xA0にマップするエンコードがいくつかあります。 Latin-1（その名前のISOとWindowsのエンコーディングのあいまいさが曖昧です）は確かではありませんが、確かではありません。 –

@CoderBrien：おそらく、おそらく。または他の昔ながらの1バイトエンコーディング。 –

答えて