Sphinxの言語モデルを作成するには、コーパスをどれだけ大きくする必要がありますか？

ドメインの優れた言語モデルを取得し、CMU Sphinxなどの音声認識ツールで使用するために、処理する必要のある文書や文章、言葉の数を知りたいと思います。Sphinxの言語モデルを作成するには、コーパスをどれだけ大きくする必要がありますか？

出典

2011-07-15 pjvv1

小さなドメインのためのまともな言語モデルを作成するには、通常、約100 MBのテキストが必要です。一般的な言語モデルと組み合わせて、言語モデルをより一般化することができます。

一般的な言語モデルを作成するには、開発者は非常に大きなコーパスを使用します。たとえば、数百万語とテラバイトのデータを含むGoogleの1TBコーパスがあります。そのトリグラム部分は約40Gbのバイグラム数ですが、百テラバイトのテキストでなければなりません。

出典

2011-09-14 10:00:42

？ –

GoogleのデータはLDCから購入できます。 http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-toも参照してください。 -you.html –

ニコライの答えに追加：

これは簡単な作業ではありません。言語モデルを生成することは、時間とリソースを大量に消費する作業です。

「良い」言語モデルを使用するには、言語モデルをトレーニングするために大規模または非常に大きなテキストコーパスが必要になります（ウォールストリートジャーナルテキストの数年のオーダーで考える）。

「良い」とは：言語モデルは、あなたがスフィンクスとHTK言語モデルツールキットのドキュメントを見なければならない新しい、以前は目に見えない入力データにトレーニングデータから

を一般化することができるようになります場合。

これら二つのスレッドを確認してください：

Building openears compatible language model

Ruby Text Analysis

あなたは大きなコーパスに基づいて、より一般的な言語モデルを取り、それをあなたの小さな言語モデルを補間することができ..例えばAバックオフ言語モデル...しかし、これは簡単な作業ではありません。

参照：私はこの1TBのコーパスをダウンロードすることができhttp://en.wikipedia.org/wiki/Katz「s_back-off_model

出典

2011-10-05 02:04:58 Tilo

Sphinxの言語モデルを作成するには、コーパスをどれだけ大きくする必要がありますか？

答えて

関連する問題