UTF8でユニコード文字を結束文字fi
(Unicode U + FB01)に複数指定できますか?どれ?正規化フォームごとに?UTF8で複数の表現のUnicode合字を使用できますか?
答えて
これは「文字」の意味によりますが、これはあいまいです。 Unicodeでは、「文字」は通常、文字に割り当てられたコードポイントを意味し、「文字」の直感的な概念と正確に一致します。
U + FB01などの単一のコードポイントは、UTF-8なぜなら、UTF-8は、コード化されたフォームを生成するための明白なアルゴリズムを定義しているからです。
フィリピンなどの直感的な文字は、それぞれがUTF-8表現を持つコードポイントまたはコードポイントのシーケンスとして異なる表現を持つことがあります。 Unicodeの正規化ルールは、そのような選択肢間のマッピングの一部を定義します。
しかし、U + FB01(U + 0066 U + 0069、すなわち "f"に続いて "i")の互換性マッピングは、直感的な文字のアイデンティティを保持しません。結束は2つの通常の文字にマッピングされます。
一方、 "f"と "i"のような2文字の間にU + 200D ZERO WIDTH JOINER(ZWJ)を挿入することで、結紮行動を求めたり、提案したりすることができます。ある意味では、シーケンスU + 0066 U + 200D U + 0069はフィギュアの代替表現ですが、これは文字の正式な特性ではなく、ソフトウェアをZWJに注意を払うかどうかによって決まります。
文字がutf-8
でbe encoded as0xEF 0xAC 0x81
をすべきであるが、同じ文字は一緒に0x66 0x69
あるf
と順番にi
、に分解することができます。あなたの質問は、実際にthis chart from the unicode specificationによって直接答えている:あなたが見ることができるようにNFKD
とNFKC
フォームがf
+ i
組み合わせを使用しながら、NFD
とNFC
正規化はまだリガチャに同じコードポイントを使用している
。
ニース、ありがとう。 – Cartesius00
- 1. 正規表現エンジンdk.brics.automatonでUnicodeを使用できますか?
- 2. javascriptの正規表現でUnicode文字グループを使用する方法は?
- 3. ngClass指令:複数の表現を使用して複数のクラスを追加できますか?
- 4. MysqlとUTF8で箇条書きのUnicode文字を格納する
- 5. フォーマットされたUnicodeへのUnicode表現ですか?
- 6. 正規表現を使用してutf8をエスケープします
- 7. Pythonの正規表現、Unicode文字列
- 8. 分数を端数で置き換えます。正規表現、数字で数字を正規表現
- 9. python正規表現です。 Unicodeの文字
- 10. 文字セットがASCIIの場合は、どのようにしてリテラル文字列ISO/ANSI CでUnicode文字を表現できますか?
- 11. ASCII正規表現パターンでUnicode文字を表現する方法は?
- 12. 正規表現でのUnicode文字の指定
- 13. 数字の正規表現ですか?
- 14. 整数表現から単一のUnicode文字を取得する方法は?
- 15. TelegramのロゴはUnicodeの文字として使用できますか?
- 16. WebブラウザにUnicode文字を表示できませんか?
- 17. 正規表現は、Unicode文字は、.NET
- 18. UTF8文字列から英数字以外の文字を削除する正規表現
- 19. C++の正規表現でUnicodeの範囲を使用する方法
- 20. 正規表現を使用して数字/文字の組み合わせを削除しますか?
- 21. FlaskでUnicode文字を表示できません
- 22. Ionic/Angular JSでUnicode文字を表示できません
- 23. BFGを使用する場合、複数のファイルを指定できますか?
- 24. utf8.Validstring関数が無効なUnicode文字を検出しないのはなぜですか?
- 25. Lessで正規表現を使用できますか?
- 26. .babelrcで正規表現を使用できますか?
- 27. Oracleでは正規表現を使用できますか?
- 28. svndumpfilter include文で正規表現を使用できますか?
- 29. 正規表現で集計を使用できますか?
- 30. solr elevate.xmlコンフィグレーションで正規表現を使用できますか
なぜ結紮がありますか? – tchrist