2017-02-08 7 views
-1

各プレーンの最後の2文字、特にプレーン3-13を見つけるための優れたリソースはありますか?Unicode Noncharacters

明らか0xFFFE0xFFFFは非文字だけでなく、0x10FFFE0x10FFFFですが、私は、各平面が終わるところ、私が言うことができないとして最後の文字は、各プレーンのどこに完全なリストを見つけることができません。

ユニコードウェブサイトでは、すべてのプレーンの最後の2文字が非文字であることを示します。

答えて

0

Unicode Character Databaseには、各コードポイントのステータスに関する信頼できる情報が含まれています。これを使用して、各平面の最後に割り当てられたコードポイントを決定することができます。これは、新しい文字が割り当てられるにつれて(実際には)変更される可能性があります。また、「キャラクター」の意味を定義する必要があります。特に、プライベートユースのコードポイントを「文字」と見なすかどうかを定義する必要があります。

1

各ユニコードプレーンには、0x000000から始まる2 コードポイントが含まれ、各プレーンの最後の2文字は非文字です。したがって、全て0x••FFFE0x••FFFFコードポイントは••は(平面を識別する)0x00から0x10を通して何でもあるnoncharactersです。

0

...私は各平面がどこで終わるか分かりません。

すべてのプレーンは、定義によって、U+xxFFFFで終了します。

ユニコードウェブサイトでは、すべてのプレーンの最後の2文字が非文字であることを示します。

Unicode標準バージョン9.0 - コア仕様は(23.7 Noncharactersセクションに)言う:

ユニコード規格はさておき66個の非文字コードポイントを設定します。最後の2つの各プレーンのコードポイントは、BMPではU + FFFEとU + FFFF、プレーン1ではU + 1FFFEとU + 1FFFF、プレーンではU + 10FFFEまで、U + 10FFFFまで16、合計34コードポイント。さらに、BMPには32個の非文字コードポイントの連続した範囲があります.U + FDD0..U + FDEFです。歴史的な理由から、範囲U + FDD0..U + FDEFはアラビア語表示フォーム-Aブロックに含まれていますが、これらの非文字は「アラビア非文字」または「右から左の非文字」ではなく、そのコードポイント値を除いて、他の非文字とは別の方法です。

キーワード「コードポイント」は「文字」ではなく、常にU + xxFFFEおよびU + xxFFFFです。