私は、1つのインスタンスで複数のロケールをサポートする国際化データベースアプリケーションを開発中です。国際的なユーザーがデータベースの上に構築されたアプリケーションでデータを並べ替えると、データベースはユーザーが表示しているデータに関連付けられたロケールに適した照合を使用して理論的にデータを並べ替えます。L10N:ロケール固有のソートのための信頼できるテストデータ
私は2つの基準を満たしている単語のソートされたリストを見つけようとしている:
- ソート順が記載されている言葉は、私はほとんどの/すべてを行使することができますロケール
- の照合規則に従いますロケールの具体的な照合ルール
このような信頼できるテストデータを見つけることができません。このようなソートテストのデータセットは現在入手可能ですか?そうであれば、どこにありますか?
「words.en.txt」アメリカ英語のテキストを含むテキスト・ファイル例である:
Andrew
Brian
Chris
Zachary
私は無作為化順序で私のデータベースに単語のリストをロードすることを計画し、並べ替えかどうかをチェックしていますリストは元の入力に従います。
私は、英語以外の言語に堪能ではないですので、私は(「words.fr.txt」それを呼び出す)フランス語で次のサンプルのようなサンプルデータセットを作成する方法がわからない:
cote
côte
coté
côté
フランス語は、右から左に並べ替える分音記号を好む。あなたは、コード・ポイントの順序を使用して、それはおそらく(間違った照合である)このように出てくることをソートした場合:
cote
coté
côte
côté
が助けてくれてありがとう、 クリス
あなたは探しているデータの種類を特定してください –
私の質問を明確にしようとし、編集のいくつかの例を提供した。 –
私は、UCA適合テストページ(http://www.unicode.org/Public/UCA/latest/CollationTest.html)でUnicode照合アルゴリズムのテストデータを見つけました。言葉のリストではなく、文字のリストですが、テストの目的で十分です。まだロケール固有のものはまだ見つけられていません。 –