2011-01-29 5 views
0

私は、クメール語のopensource Java単語分割プログラム(言葉の間にスペースを入れない言語)を単語に追加します。開発者は長い間それに取り組んでいないし、詳細については私はそれらに連絡することができなかった(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20プログラム%20V1.0 /)。おそらく、リストはクメールの辞書から作成されたもので、もっと多くの単語を含めるためにファイルを再作成したいと思います。これはどのタイプのTrieですか?

単語辞書がどのような形式であるかは誰でも分かりますか(私はそれが何らかのタイプのTrieだと思いますか?)

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ 
1ទ 
0ក 
1 
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ 
1គនសងរ 
0ទ 
0ា 
0យ 
0ព 
0ន 
1 
1រ 
0ា 
0ស 
0ី 
1 

そして誰もが、私は新しいものを(私は大規模なワードリストを持っていますが、私はこのフォーマットにそれを取得する方法を確認していない)ことについて行く方法を知っているん:ここでは最初の数行があります。

ありがとうございます!

答えて

1

コードをすばやく見てから、私には理論があります。

SearchTreeを作成してTreeItemを作成します。辞書の各単語についてはaddWordTreeItemから呼び出してください。反復処理が完了したらSearchTreeexportを呼び出します。新しいファイルを単語入力ファイルとして使用します。

さらに、khwrdbrk.jarの文書化されていないパラメータ--createがあります。このパラメータは、標準入力から新しいツリーの単語を読み込みます。

これもまた理論ですが、テストするとどうなるか教えてください。

+1

私はあなたの最初の部分には答えませんでしたが、最後の部分が最も重要な部分だと思われますか? –

+0

うわー - すごい! " - クリエイト"がトリックでした!コードを見て、私にこの答えを与える時間をとってくれてありがとう! – Nathan

関連する問題