ナイーブベイズ分類器のベルヌーイモデルのラプラス平滑化

ドキュメントをクラスに分類するためのナイーブベイズ分類器を実装する必要があります。したがって、ラプラス平滑化と一緒に、クラスに属する用語の条件付確率を得るには、ナイーブベイズ分類器のベルヌーイモデルのラプラス平滑化

prob（t | c）= Num（クラスcのドキュメント内のワード発生+ 1/Numクラスcの文書）+ | V |

bernoulliモデルは、1または0のいずれかを持ち、ボキャブラリーはおそらく20000ワードなどのように大きくなります。だから、ラプラスのスムージングは、語彙のサイズが大きいために本当に小さな値を与えませんか、私は間違ったことをしていますか？

このリンクの擬似コードによれば、http://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html、bernoulliモデルの場合、| V |の代わりに2を追加するだけです。なぜそうなのか？

出典

2016-11-06 Sera_Vinicit

コンピュータサイエンスの交換が存在していますか？ – MordechayS

多項式ナイーブベイズの場合について考える。上で定義した平滑化は、決してゼロ確率を得ることができないようなものです。

多変量/ベルヌーイのケースでは、厳密に1の確率も許容されないという追加の制約があります。なぜなら、既知の語彙のtが文書dに存在しない場合、確率は1 - prob(t | c)となり、文書確率に掛け算されるからです。 prob(t | c)が1であれば、もう一度、これは0

の事後確率を生成するために起こっている（代わりにログを使用した場合、確率が1のとき同様に、log(1 - prob(t | c))が定義されていない）

だから、ベルヌーイの方程式(Nct + 1)/(Nc + 2)で両方のケースが保護されています。 Nct == Nc場合、確率は1/2ではなく1になります。また、これは関係なく、かどうかtの1/2の可能性を生産の結果は、（P(t | c) == 1/2）かない（1 - P(t | c) == 1/2）

出典

2016-12-15 13:04:02 CJxD

ナイーブベイズ分類器のベルヌーイモデルのラプラス平滑化

答えて

関連する問題