2011-07-19 12 views
3

このリンクに7707言語が記載されていますhttp://www.sil.org/iso639-3/download.aspおよびhttp://en.wikipedia.org/wiki/ISO_639:aです。言語間のUnicode範囲マッピング

また、Unicodeは言語の記述体系をサポートしていますが、言語とUnicodeの範囲をマッピングすることが必要です。ユニコード範囲をhttp://www.unicode.org/roadmaps/bmp/

例Unicodeの範囲のいずれかのリンクに記載されている

"開始" => "0x0900"、 "終了" => "0x097F"、 "block_name" => "デバナーガリ"(何このユニコードの範囲を使用していますか?)

ドキュメントはありますか?ユニコード範囲でサポートされている完全な言語マッピングが必要です。

+3

言語へのスクリプトは1対1のマッピングではありません。どこに '' a''をマッピングしますか?最高でも、スクリプトを言語に多対多にマッピングし、一致するセットを検索することができます。 [Onmiglot](http://www.omniglot.com/writing/langalph.htm)のようなものは役に立つリソースかもしれません。 –

+0

はい、多対多マッピングです。リンクのおかげで、非常に有用な、完了したリストがありますか? – Ahmad

+0

私はスクリプトを言語にマップする標準化されたリストやリソースについて認識していません。つまり、私はこの特定の質問を非常に懸念していないので、存在する可能性がありますが、これが何らかの目的で使用されているのだろうかと思います。テキストの言語を発見するための一般的なテキストの方法は実際にはありません。ほとんどの現実のテキストは、おそらく明確な単一言語(ドイツ語の広告を見てください)を持っていないこともあります。コードポイントからのスクリプトの発見は問題ありません。それを超えるものは、HTMLの 'lang'属性のような高水準プロトコルの責任です。 –

答えて

0

あなたはその結果に各ロケールコールuloc_addLikelySubtagsのために、その後、あなたは(uloc_getAvailableで)すべてのロケールを取得することができますICU4Cロケール(http://icu-project.org/apiref/icu4c/uloc_8h.html

を見て、その後、uloc_getScriptことができます。

これは、言語によって使用される最も可能性の高いスクリプトを提供します。しかし、複数のスクリプトを使用する言語があります。それらのうちのいくつかはICUによって捕獲されるが、いくつかはICUによって捕獲される。

関連する問題