2016-03-22 10 views
0

データマイニングとNLPテクニックを使用してASRシステムの出力にエラーの修正を行っています。そのためには、n-gram辞書が必要です。私はwikipedia ngramから始まり、小さなテストセットでは奨励的な結果(75%の検​​出率)を示しています。しかし、大規模なデータセットで私のソリューションをテストすると、ウィキペディアngramがすべての英語の単語をカバーするのに十分ではないため、検出率が低下しました。だから私は、Webから収集されたより大きなngramを探している、私は "Google Web 1T 5グラム"を発見したが、私の研究室はそれを購入するのに十分なリソースがありません。 既にこのデータセットを持っている人や、無料で入手する方法が分かっている人は、助けてください。無料のngramデータセットのLoking

答えて

2

Googleのngramデータは無料でご利用いただけます:http://storage.googleapis.com/books/ngrams/books/datasetsv2.htmlそれはテラバイト以上ですが、それは年に分割されています。これはほとんどのユースケースでは必要ないので、おそらくデータをより小さなフォーマットに集約できます。書籍のテキストですが、これは通常、ほとんどのユーザーが通常ASRにフィードするものとは異なります。

+0

ありがとう、私はすでにGoogleブックのngramデータセットの集計を開始しています。 – user3487059