各プレーンの最後の2文字、特にプレーン3-13を見つけるための優れたリソースはありますか?Unicode Noncharacters
明らか0xFFFE
と0xFFFF
は非文字だけでなく、0x10FFFE
と0x10FFFF
ですが、私は、各平面が終わるところ、私が言うことができないとして最後の文字は、各プレーンのどこに完全なリストを見つけることができません。
ユニコードウェブサイトでは、すべてのプレーンの最後の2文字が非文字であることを示します。
各プレーンの最後の2文字、特にプレーン3-13を見つけるための優れたリソースはありますか?Unicode Noncharacters
明らか0xFFFE
と0xFFFF
は非文字だけでなく、0x10FFFE
と0x10FFFF
ですが、私は、各平面が終わるところ、私が言うことができないとして最後の文字は、各プレーンのどこに完全なリストを見つけることができません。
ユニコードウェブサイトでは、すべてのプレーンの最後の2文字が非文字であることを示します。
Unicode Character Databaseには、各コードポイントのステータスに関する信頼できる情報が含まれています。これを使用して、各平面の最後に割り当てられたコードポイントを決定することができます。これは、新しい文字が割り当てられるにつれて(実際には)変更される可能性があります。また、「キャラクター」の意味を定義する必要があります。特に、プライベートユースのコードポイントを「文字」と見なすかどうかを定義する必要があります。
各ユニコードプレーンには、0x000000
から始まる2 コードポイントが含まれ、各プレーンの最後の2文字は非文字です。したがって、全て0x••FFFE
と0x••FFFF
コードポイントは••
は(平面を識別する)0x00
から0x10
を通して何でもあるnoncharactersです。
...私は各平面がどこで終わるか分かりません。
すべてのプレーンは、定義によって、U+xxFFFF
で終了します。
ユニコードウェブサイトでは、すべてのプレーンの最後の2文字が非文字であることを示します。
号Unicode標準バージョン9.0 - コア仕様は(23.7 Noncharactersセクションに)言う:
ユニコード規格はさておき66個の非文字コードポイントを設定します。最後の2つの各プレーンのコードポイントは、BMPではU + FFFEとU + FFFF、プレーン1ではU + 1FFFEとU + 1FFFF、プレーンではU + 10FFFEまで、U + 10FFFFまで16、合計34コードポイント。さらに、BMPには32個の非文字コードポイントの連続した範囲があります.U + FDD0..U + FDEFです。歴史的な理由から、範囲U + FDD0..U + FDEFはアラビア語表示フォーム-Aブロックに含まれていますが、これらの非文字は「アラビア非文字」または「右から左の非文字」ではなく、そのコードポイント値を除いて、他の非文字とは別の方法です。
キーワード「コードポイント」は「文字」ではなく、常にU + xxFFFEおよびU + xxFFFFです。