私はWebフォーム(UTF-8として)を使用してユーザー入力を受け付け、MySQL DBに保存し(UTF-8文字セットを使用)、後で(UTF-8としてコード化された)テキストファイルを生成します。 UCS-2のようなものではなく、UTF-8を使用してテキストが破損する可能性があるのでしょうか? UTF-8はこのような状況で十分ですか?UTF-8はアジア言語の読み書きに使用できますか?
7
A
答えて
14
それ以上の場合は、おそらくを使用することをお勧めします。
テーマに関するいくつかの素晴らしい読み:
2
UTF-8は、任意のUnicode文字を表すことができます。 UTF-8には問題ありません。
実際、UTF-8はUCS-2ではできない文字を表すこともできます(UCS-2はU + 0000〜U + FFFFしか表現できませんが、UTF-8、UTF-16、UCS-コードポイント)
1
私が知る限り、UTF-8はこれらの以前のすべてのUnicodeバリエーションを網羅するように設計されているので、UCS-2よりもうまく使用してください。 http://www.unicode.org/versions/Unicode5.1.0/を参照し、5.0の書籍の章のサイドバーを見てください。部品9〜12はあなたが何をしているのかを理解する必要があります。
10
多くのアジア言語のテキスト(ラテン文字よりも多く)で作業している場合は、UTF-16を検討するとよいでしょう。 UTF-8は、Unicodeの文字の範囲全体を正確に表すことができますが、ほとんどがASCIIのテキストに最適化されています。 UTF-16は、Basic Multilingual Plane全体にわたってスペース効率が良いです。
しかし、UTF-8は、「十分に良い」と確信しています。たとえば、UTF-16以上のUTF-8を使用しているため、破損は起こりません。
0
Devanagariと一緒にすごくうまく動作します。
関連する問題
- 1. システムコールのC言語での読み込みと書き込み
- 2. C++でSQLデータベースからアジア言語の文字を読み取る方法
- 3. 同じファイルを読み書きに使用できますか?
- 4. イメージファイルの同時読み書き(asp.net、ほとんどのウェブ言語に適用)
- 5. 別の言語のファイルベースにデータを書き込んで読み込む方法
- 6. Azureテーブルストレージはアジア言語をサポートしていますか?
- 7. custom-functions-excel Sharepoint List項目の読み書きに使用できますか?
- 8. Botframeworkでドイツ語または他の言語を使用できますか?
- 9. OO言語を設計するときは、書き込み専用のプロパティを避けるべきですか?
- 10. 次の開発にX ++言語を使用できますか?
- 11. 配列リテラルは宣言にのみ使用できますか?
- 12. システムコールはC言語以外の言語でも利用できますか?
- 13. 読み書き用のロックテーブル
- 14. スクリプト言語を他の言語に翻訳できますか?
- 15. ウェブ/ブラウザアプリケーションからディスクに書き込むために使用できるウェブ言語はどれですか?
- 16. Herokuアプリで2つの言語を使用できますか?
- 17. MetaTrader4でMQL4以外の言語を使用できますか?
- 18. java.util.concurrentクラスを使用すると、読み書きを整理できますか?
- 19. Objective-Cのアクセサ(読み取り専用、読み書きなど)を宣言
- 20. RSSフィードからアジア言語をフィルタリングする方法は?
- 21. ダーツを汎用言語として使用できますか?
- 22. スパークの使用s3から読み込み、s3から書き込むことはできますか?
- 23. iOS/Android - モバイルOSのデータリンクレイヤに読み書きできますか?
- 24. URLに英語以外の言語を使用できますか?
- 25. libhidを使用してUSBに読み書きするとき
- 26. ファイルからの入力を読み込み、出力をC言語の別のファイルに書き込む方法
- 27. Google Spellで使用できる言語は何ですか?
- 28. strutsのMessageResourcesはアジア言語では機能しませんが、??????代わりに
- 29. Unity3d 2017.2でJavaスクリプト言語を使用できますか?
- 30. PDFiumはPostScriptファイルを読み書きできますか?
リンクをありがとうございます - 私はそれを少し前に読んでいます。私はさまざまなエンコーディング(固定長の文字と可変長の文字)に精通していますが、何らかの理由でUCS-2がより多くの文字を表現できるという印象を受けました。私は間違っていたと思う。 :) –
UCS-2とUTF-16は間違っていることがよくありますが、コードポイントは同等ですが、UTF-16ではすべてのUnicode文字が16ビットに収まるわけではないという代理コードポイントがあります。ウインドウズとJavaは、偶然、実際にはUTF-16、_not_ UCS-2を使用しています。 – bdonlan
UCS-2には固定長文字が含まれていますが、UTF-16には可変長文字が含まれています。どちらも16ビットのチャンクで動作します。 (UCS-2は廃止されていることにも注意してください) –