どの言語のUnicode文字をアクセント付きのラテン文字に変換する方法を探しています。その意図は、外国人がラテン語以外のスクリプトで書かれた名前や言葉の発音を知ることを可能にすることです。ユニコードテキストのローマ字
例:ギリシャ
:Romanize("Αλφαβητικός")
戻り"Alphabētikós"
(または "Alfavitikós")
日本語:Romanize("しんばし")
戻り"shimbashi"
(または "sinbasi")
ロシア:Romanize("яйца Фаберже")
戻り"yaytsa Faberzhe"
(または「jajcaFaberže ")
これは理想的には、CJK、インド語、キリル文字、セミトリ語、ギリシャ語の文字をサポートしているはずです。 Unicode Consortium、USA、EU、またはUNのいずれかのデータを使用して、データ駆動型で拡張可能である必要があります。コードは.NETやJavaで書かれたオープンソースでなければなりません。
このようなライブラリはありますか?
私は、ICU変換を使用する地名のGoogle Mapsの翻字のようなものを探しています。 Googleがそのコードをオープンソースにしてほしい。 (http://research.google.com/pubs/pub36450.htmlとhttp://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/papers/36450.pdf) –
Iこの操作もロケール固有のものだと考えられます。ウェールズ語とピンインは同じ文字を使用しますが、多分ローマ字化します:-) – wberry
@wberry:ウェールズ語はラテン語のスクリプトをネイティブに使用し、ピンインはすでにローマ字の中国語です。 –