2009-09-11 2 views
1

私はスペルチェッカーのバリエーションを実装しています。時間効率を向上させるためにさまざまなルートをとった後、私は、n-gramモデルの使用を含むコンポーネントを試す予定です。だから本質的には、今後の処理のために候補者候補のリストを整理したい。皆さんは、nの1つの値(例えば2)を使用する方が他のもの(3と言う)よりも優れているかどうか知っていますか?nグラムモデルでnの経験的に見つかった最良の値は何ですか?

答えて

0

this websiteによると、英語の平均単語長は5.10文字です。私は人が短い単語よりも長い単語を間違って綴る可能性が高いと思いますので、可能であれば、3〜5文字ほどの文字を腸の感情として送り出すことに向かって傾けたいと思います。

0

あなたがnグラムと言うとき、私はあなたが文の中の単語ではなく単語の中の文字を話していると仮定しようとしています。この場合、私はあなたが制御している単語の3〜5文字を含む単語まで候補リストを整理できるという点で、Mark Rushakoffに同意するでしょう。

もう1つの方法は、2つの単語間の編集距離を見つけるためにLevenshtein algorithmを実装することです。これは非常に効率的に行うことができます。まず、枝刈りリストをチェックするだけです。第2に、編集距離が何らかの種類の限界(例えば、3~5)を超えると、早急に単語の距離計算を終了することによって。

私は短い言葉を無視するべきではないという点について、私はマークに同意しません。ミスペルドされた単語の大部分は、それらがはるかに頻繁であるという理由で、短い単語(「や」、「〜」、「〜」、「〜」など)になります。

希望すると便利です。

0

トレーニング用のテキストが十分ある場合は、3が良いスタートです。一方、そのようなモデルはかなり大きくなり、あなたのスペルチェッカーを膨らませます。

perplexityに基づいて異なる設定を比較することもできます。

関連する問題