U + 001A文字は、文字エンコーディングに関連するエラーメッセージに頻繁に表示されます。 U + 001A文字とは何ですか?Unicode U + 001A文字とは何ですか? Aka 0x1A
答えて
私が言うことができる限り、U+001AはUnicodeのレガシー文字です。その存在の唯一の理由は、substitute character( "無効または間違っていると認識された文字の代わりに使用されるか、または特定のデバイスで表現できない文字の代わりに使用されます。")としてASCIIに既に定義されています。また、文字ストリームを終了するために使用されることもありました(おそらく問題の一般的な原因です)。
この機能は、U+FFFD REPLACEMENT CHARACTERによって引き継がれています。
これはCtrl + Zの制御コードです。それはDOS/CPから継承したDOSから継承された、Windowsで特別なものです。その古くからの使用は、Ctrl + DがUnixでどのように使われているかのように、テキストの終わりのマーカーとして使用されていました。
エラーメッセージでそれを見るか、失敗したエンコーディング変換のフォールバック文字として使用するのは非常に珍しいです。コードを再確認し、U + 003FまたはU + FFFDでないことを確認してください。これは一般的なエンコーディングの代替文字です。またはあなたが扱っている特定のコードの単純な奇妙なものです。
U + 001Aは、SUBSTITUTEという名前の制御文字としてUnicode Standardで定義されており、標準のchapter 16で次のような特徴を持つグループに属しています。 "Unicode標準には65個のコードポイントがありますC0 およびISO/IEC 2022フレームワークで定義されているC1制御コードとの互換性[...] Unicode Standardは、これらのコードポイントの完全な交換を提供し、 セマンティクスに加えたり、制御コードのセマンティクスは、一般に、それらが使用されるアプリケーションによって決定される。しかし、 特定のアプリケーション用途の非存在下では、それらはISO/IECで6429指定された制御機能の意味に従って解釈することができる:。1992」ISO 6429
を効果的に有するように、このコードを言及ECMA 48、と等価です短い名前のSUBも定義し、次のように定義します。 "SUBは、無効または間違っている文字の代わりに使用されます。 SUBは 自動手段で導入されることを意図しています。 "これはdefinition of this control code in Asciiを反映しています。
したがって、一般に、U + 001Aは、文字エンコーディングの解釈が適用されていないと思われる文字データのバイトなどの文字レベルのデータエラーを示すために使用できます。むしろ、「悪い文字データ」を意味するが、より適切には、「データを文字として解釈しようとすると、不正な形式のデータ」を意味する。ただし、ユニコードでは、U + FFFD置換文字が特定のUnicodeセマンティクスを持つため、より適切です。
質問に「xml」というタグが付いているので、XML 1.0では、U + 001Aは禁止されています(2.2 Characters)。注釈「サロゲートブロック、FFFE、およびFFFFを除くすべてのUnicode文字」は誤解を招きます(コメントは非規範です)。 U + 001AはUnicode文字ですが、グラフィック文字ではなく、その効果はUnicode標準では定義されていません。
libxmlが有効なutf8文字を拒否している理由を考えてみてください。どうして私はそれらを手に入れているのか分かりませんが、少なくとも今私は問題の内容を理解することができます... – mcfedr
- 1. U + 001Aを含むXML文書のエンコーディング
- 2. StreamException:無効なXML文字(Unicode:0x1a)
- 3. XMLとUnicodeの仕様:正当な文字は何ですか?
- 4. 次のUnicode文字列\ xe9とは何ですか?
- 5. Unicode "Backspace" U + 0008の目的は何ですか?
- 6. C++でboost regexを使ってエスケープエレメント '\'とUnicode文字 '\ u'をパースする方法
- 7. Python2.xのUnicode文字列からエスケープ文字(エスケープ文字のUnicode文字)を削除するには?
- 8. 数字93の意味はUnicodeとは何ですか?
- 9. Swift 3 unicode stringをU + 1F600
- 10. MySQLとUnicode文字
- 11. Unicode文字列(パイソン)
- 12. Unicode文字列リテラル
- 13. Pythonの文字列はUnicode文字です
- 14. ルビー:アンエスケープUnicode文字列
- 15. 有効なUnicode文字列
- 16. Unicodeエスケープシーケンス進は私のプログラムでのUnicode/UTF-8文字をエンコードするには
- 17. Python Structlog - ユニコード文字列からu 'を隠す
- 18. プリントUnicode文字
- 19. マッチUnicode文字
- 20. U +ユニコード文字列定義から真のユニコード文字への変換
- 21. Unicode Codepage 1200とは何ですか?
- 22. Python - 文字列をUnicodeの置換文字と比較する
- 23. チェック文字列はUnicode文字
- 24. Pythonで文字列のリストをUnicode文字に変換する
- 25. ユーザーにUnicodeアラビア文字列
- 26. Unicodeの一般カテゴリPsまたはPiの文字を指定すると、一致する終了文字は何ですか?
- 27. UnicodeはHTMLとXMLのデフォルトの文字セットですか?
- 28. `git push -u origin master`で` -u`を使うのは何ですか?
- 29. 文字列をPHPでUnicode文字の配列に分割する最も良い方法は何ですか?
- 30. "\ u"がUnicode Python文字列に含まれているかどうかをテストする方法は?
U + 001AはXML(あなたのタグの1つ)の無効な文字です –