2011-07-15 6 views

答えて

2

小さなドメインのためのまともな言語モデルを作成するには、通常、約100 MBのテキストが必要です。一般的な言語モデルと組み合わせて、言語モデルをより一般化することができます。

一般的な言語モデルを作成するには、開発者は非常に大きなコーパスを使用します。たとえば、数百万語とテラバイトのデータを含むGoogleの1TBコーパスがあります。そのトリグラム部分は約40Gbのバイグラム数ですが、百テラバイトのテキストでなければなりません。

+0

? –

+0

GoogleのデータはLDCから購入できます。 http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-toも参照してください。 -you.html –

0

ニコライの答えに追加:

これは簡単な作業ではありません。言語モデルを生成することは、時間とリソースを大量に消費する作業です。

「良い」言語モデルを使用するには、言語モデルをトレーニングするために大規模または非常に大きなテキストコーパスが必要になります(ウォールストリートジャーナルテキストの数年のオーダーで考える)。

「良い」とは:言語モデルは、あなたがスフィンクスとHTK言語モデルツールキットのドキュメントを見なければならない新しい、以前は目に見えない入力データにトレーニングデータから

を一般化することができるようになります場合。

これら二つのスレッドを確認してください:

Building openears compatible language model

Ruby Text Analysis

あなたは大きなコーパスに基づいて、より一般的な言語モデルを取り、それをあなたの小さな言語モデルを補間することができ..例えばAバックオフ言語モデル...しかし、これは簡単な作業ではありません。

参照:私はこの1TBのコーパスをダウンロードすることができhttp://en.wikipedia.org/wiki/Katz「s_back-off_model