ドメインの優れた言語モデルを取得し、CMU Sphinxなどの音声認識ツールで使用するために、処理する必要のある文書や文章、言葉の数を知りたいと思います。Sphinxの言語モデルを作成するには、コーパスをどれだけ大きくする必要がありますか?
2
A
答えて
2
小さなドメインのためのまともな言語モデルを作成するには、通常、約100 MBのテキストが必要です。一般的な言語モデルと組み合わせて、言語モデルをより一般化することができます。
一般的な言語モデルを作成するには、開発者は非常に大きなコーパスを使用します。たとえば、数百万語とテラバイトのデータを含むGoogleの1TBコーパスがあります。そのトリグラム部分は約40Gbのバイグラム数ですが、百テラバイトのテキストでなければなりません。
0
ニコライの答えに追加:
これは簡単な作業ではありません。言語モデルを生成することは、時間とリソースを大量に消費する作業です。
「良い」言語モデルを使用するには、言語モデルをトレーニングするために大規模または非常に大きなテキストコーパスが必要になります(ウォールストリートジャーナルテキストの数年のオーダーで考える)。
「良い」とは:言語モデルは、あなたがスフィンクスとHTK言語モデルツールキットのドキュメントを見なければならない新しい、以前は目に見えない入力データにトレーニングデータから
を一般化することができるようになります場合。
これら二つのスレッドを確認してください:
Building openears compatible language model
あなたは大きなコーパスに基づいて、より一般的な言語モデルを取り、それをあなたの小さな言語モデルを補間することができ..例えばAバックオフ言語モデル...しかし、これは簡単な作業ではありません。
参照:私はこの1TBのコーパスをダウンロードすることができhttp://en.wikipedia.org/wiki/Katz「s_back-off_model
? –
GoogleのデータはLDCから購入できます。 http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-toも参照してください。 -you.html –