2016-12-24 37 views
1

私は韓国の文章を扱うプログラムに取り組んでいます。私は、音節を分解したり、その文字にブロックする方法が必要です。ハングルを知らない人のために、音節は2〜4文字(ジャモ)で構成され、何千もの異なる組み合わせを生み出します。私がしたいのは、それらの音節をそれを構成する文字に分解することです。ハングルの音節を文字に分解する(jamo)

私はそのUnicode値をその範囲内の関連する文字、すなわちx文字で始まる音節をyの範囲に比較することによって最初の文字を得ることができました。しかし、私は手紙の残りの部分を見つけることができません。 http://jrgraphix.net/r/Unicode/AC00-D7AF

答えて

3

ハングル音節分解(例えば + が+)java.text.NormalizerクラスをJavaで行われます:

String s = Normalizer.normalize("\uD4DB", Normalizer.Form.NFD); 

これは、ハングル音節のためのUnicode値を含むテーブルでありますハングル分解のアルゴリズムはSection 3.12 of the Unicode Standard (from page 142)でも与えられます。また、正規化はハングル以外の他の文字にも影響するため、ユニコード正規化の一般的な原則と形式をUAX #15に理解しておく必要があります。

+0

ありがとう、これは私が探していたものです。音節を分解するための独自のアルゴリズムを作らなければならないと心配していました。 – Ninjaman494

関連する問題