ドキュメントをクラスに分類するためのナイーブベイズ分類器を実装する必要があります。したがって、ラプラス平滑化と一緒に、クラスに属する用語の条件付確率を得るには、ナイーブベイズ分類器のベルヌーイモデルのラプラス平滑化
prob(t | c)= Num(クラスcのドキュメント内のワード発生+ 1/Numクラスcの文書)+ | V |
bernoulliモデルは、1または0のいずれかを持ち、ボキャブラリーはおそらく20000ワードなどのように大きくなります。だから、ラプラスのスムージングは、語彙のサイズが大きいために本当に小さな値を与えませんか、私は間違ったことをしていますか?
このリンクの擬似コードによれば、http://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html、bernoulliモデルの場合、| V |の代わりに2を追加するだけです。なぜそうなのか?
コンピュータサイエンスの交換が存在していますか? – MordechayS