ハンジをピンインに変換する際の問題はかなり困難です。文脈によっては、複数のピンイン表現を持つ多くの漢字があります。长大(pinyin:zhang da)と長城(pinyin:chang cheng)を比較してください。このため、複数の可能性を出力するシステムを持たない限り、1文字の変換は実際には役に立たないことがよくあります。また、ピンイン表現にも影響する可能性がある単語セグメンテーションの問題があります。たぶんあなたはすでにこれを知っていましたが、私はこれを言うことが重要だと思いました。つまり、Adso Packageには、優れたAdsoライブラリに基づいて、セグメンタと確率的なピンインアノテータの両方が含まれています。それは慣れるのに時間がかかり、あなたが探しているよりもはるかに大きいかもしれません(私は過去に私のニーズにはあまりにもかさばっていました)。さらに、どこにでも公開APIがあるとは思われません。
最近のプロジェクトでは、私は地名で作業していたため、Google翻訳API(具体的には非公式Javaポートは、一般的な名詞の場合、通常、ピンインに翻訳するのに適しています。この問題は、「香港」のような「XiangGang」のような一般的な代替音訳システムです。私はpinyin4jについて聞いたことがありませんでしたが、ちょうど今のところ、それが最適ではないことがわかりました。それは、可能性のある候補ピンインローマ字のリストを出力します統計的にその尤度を決定しようとする試みはない。一つの表現を返す方法があるが、現在のところ最初のromani zation、最も可能性が高い。プログラムがうまくいくと思われるところは、ローマ字と一般的な設定可能性の間の変換です。
要するに、回答は必要なものに応じて、これらのいずれかになります。特有の固有名詞?グーグル翻訳。統計が必要ですか? Adso。文脈情報なしで候補リストを受け入れることを望んでいますか?ピンイン4j。
オープンソースのみ、またはお金のためだけに? – bmargulies
@bmargulies:私はオープンソースよりもオープンソースを好んでいますが、私は – bguiz