コード化文字セット、非負整数(伝統的なASCIIとUCSによって 97に例えばラテン小文字、両方)にマップ文字。どの非負整数にUCSの文字が割り当てられていませんか? <a href="http://unicode.org/reports/tr17/#CodedCharacterSet" rel="nofollow">Unicode Character Encoding Model</a>によって定義されるよう
注:文字と抽象文字の違いがあります:最初は、符号化文字集合の文脈における概念である一方、後者の用語は、より密接に、文字の私達の概念を指します。いくつかの抽象的な文字は、複数の文字で表されます。 The Unicode article at Wikipediaを例を挙げ:例えば
、 リトアニアに必要とされる小さなラテン文字「I」オゴネク、上記ドット、及び 急性アクセント付き[抽象文字]は、により表されます文字シーケンスU + 012F、U + 0307, U + 0301。
UCS(ユニバーサルコード化文字セット)参考のため、this official link介してダウンロードすることができる、国際標準ISO/IEC 10646で定義された符号化文字集合です。
与えられた非負整数がUCS, the Universal Coded Character Setによって文字にマッピングされているかどうかを判断することです。
実際にはUCSによって予約されているにもかかわらず、文字に割り当てられていない非負の整数を最初に考えてみましょう。
- サロゲート(範囲:; UCS(分類、表1、§6.3.1リンクされたドキュメントのページ19)は、それらに対応する基本型に基づいて、三つの可能性を示していますD800-DFFF)非文字
(範囲FDD0-FDEFプラス値FFFEまたはFFFFで終わる任意のコードポイント)
ユニコード規格は、noncharactを定義ERS次のように:
Noncharactersが永久的に予約されており、 それらに割り当てられた文字を持っていることはありませんコードポイントです。
This pageは、より正確に非文字をリストします。
-
:
- は一方
(非負整数このカテゴリに属する私は見つかっていない)は、その基本型コードポイントのいずれかで予約しました
- グラフィック
- フォーマット
- 制御
- 私的使用
は、文字に割り当てられます。しかし、これは議論の余地があります。例えば、私用のコードポイントは実際に任意の文字を割り当てられると見なされるべきですか?
私的使用の文字がこの 国際規格によって、どのような方法で制約されない;非常にUCS(6.3.5、プライベート利用文字を§リンクされたドキュメントのページ20)としてそれらを定義します。私的使用文字を使用して のユーザ定義文字を提供することができます。
さらに、UCSがマップまたは予約する非負整数の範囲を知りたいと思います。最大値は何ですか?いくつかのページでは、UCSがマップする非負整数の全範囲が-presumably-0-0x10FFFFであることがわかりました。これは本当ですか?
理想的には、この情報は、アルゴリズムを構築することができる機械可読形式で公開されることが理想的です。それは偶然ですか?明確にするために
:私は必要なものは、引数として非負の整数を受け取り、それはUCSによって文字にマップされているかどうかを返す関数です。 さらに、公式の機械可読情報に基づいていることをお勧めします。この質問に答えるには、自分で関数を構築できるリソースを1つ指すだけで十分です。
ありがとう、それは私が必要としていたものです。非常に多くの検索でそれを見つけられなかったので私は気が気にしない... – Kalrish