2011-01-24 35 views

答えて

6
+0

それ文書では、「辞書を生成」を除いて、とても役に立ちました。ディストリビューションにその辞書を生成するスクリプトが付いていますか? – joeforker

+0

Subversionからチェックアウトできる発音ツールhttp://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/trunk/logios/Tools/MakeDict/ http://code.google.com/のような外部のg2pパッケージがあります。 com/p/phonetisaurus /またはsequitur-g2pを使用することもできます。 –

+0

pocketsphinxには、モデルのすぐ隣のen_USディレクトリに辞書があります。私はそれを使ってみるつもりです。 – joeforker

1

ない簡単な仕事をお読みください。言語モデルを生成することは、時間とリソースを大量に消費する作業です。

「良い」言語モデルを使用するには、言語モデルをトレーニングするために大規模または非常に大きなテキストコーパスが必要になります(ウォールストリートジャーナルテキストの数年のオーダーで考える)。

「良い」とは:言語モデルは、あなたがスフィンクスとHTK言語モデルツールキットのドキュメントを見なければならない新しい、以前は目に見えない入力データにトレーニングデータから

を一般化することができるようになります場合。

http://cmusphinx.sourceforge.net/wiki/tutoriallm

はまた、これらの二つのスレッドを確認してください。

Building openears compatible language model

Ruby Text Analysis

あなたは大きなコーパスに基づいて、より一般的な言語モデルを取るとして、あなたの小さな言語モデルを補間することができそれは例えばバックオフ言語モデルです...しかしそれは簡単なことではありません。

は、以下を参照してください。Katz's back-off model

関連する問題