L10N：ロケール固有のソートのための信頼できるテストデータ

私は、1つのインスタンスで複数のロケールをサポートする国際化データベースアプリケーションを開発中です。国際的なユーザーがデータベースの上に構築されたアプリケーションでデータを並べ替えると、データベースはユーザーが表示しているデータに関連付けられたロケールに適した照合を使用して理論的にデータを並べ替えます。L10N：ロケール固有のソートのための信頼できるテストデータ

私は2つの基準を満たしている単語のソートされたリストを見つけようとしている

：

ソート順が記載されている言葉は、私はほとんどの/すべてを行使することができますロケール
の照合規則に従いますロケールの具体的な照合ルール

このような信頼できるテストデータを見つけることができません。このようなソートテストのデータセットは現在入手可能ですか？そうであれば、どこにありますか？

「words.en.txt」アメリカ英語のテキストを含むテキスト・ファイル例である：

Andrew 
Brian 
Chris 
Zachary

私は無作為化順序で私のデータベースに単語のリストをロードすることを計画し、並べ替えかどうかをチェックしていますリストは元の入力に従います。

私は、英語以外の言語に堪能ではないですので、私は（「words.fr.txt」それを呼び出す）フランス語で次のサンプルのようなサンプルデータセットを作成する方法がわからない：

cote 
côte 
coté 
côté

フランス語は、右から左に並べ替える分音記号を好む。あなたは、コード・ポイントの順序を使用して、それはおそらく（間違った照合である）このように出てくることをソートした場合：

cote 
coté 
côte 
côté

が助けてくれてありがとう、クリス

出典

2011-01-13 Chris Betti

あなたは探しているデータの種類を特定してください –

私の質問を明確にしようとし、編集のいくつかの例を提供した。 –

私は、UCA適合テストページ（http://www.unicode.org/Public/UCA/latest/CollationTest.html）でUnicode照合アルゴリズムのテストデータを見つけました。言葉のリストではなく、文字のリストですが、テストの目的で十分です。まだロケール固有のものはまだ見つけられていません。 –

は、ここで私が見つけたものです。

Unicode Common Locale Data Repository（CLDR）は、国際的なテキストの照合に関する権限です。私は、ICUプロジェクトのICU Demonstration - Locale Explorerツールで、CLDRに見られる規則に従った単語のリストをいくつか見つけることができました。 ICU（Unicodeの国際コンポーネント）では、共通の国際化の問題を解決するためにCLDRルールが使用されています。それは素晴らしい図書館です。見てみな。

場合によっては、CLDRルールを直接リバースエンジニアリングすることによってナンセンス用語を構築すると便利でした。米国で利用可能な検索エンジンは、私がこのテストで興味を持ったケース/隔離語/その他のニュアンスで外来語を見つけるのには向いていませんでした（逆に、国際的な検索エンジンがこのタスクに適しているのだろうかと思います）。

出典

2011-05-07 00:05:02

L10N：ロケール固有のソートのための信頼できるテストデータ

答えて

関連する問題