2016-11-06 20 views
1

ドキュメントをクラスに分類するためのナイーブベイズ分類器を実装する必要があります。したがって、ラプラス平滑化と一緒に、クラスに属する用語の条件付確率を得るには、ナイーブベイズ分類器のベルヌーイモデルのラプラス平滑化

prob(t | c)= Num(クラスcのドキュメント内のワード発生+ 1/Numクラスcの文書)+ | V |

bernoulliモデルは、1または0のいずれかを持ち、ボキャブラリーはおそらく20000ワードなどのように大きくなります。だから、ラプラスのスムージングは​​、語彙のサイズが大きいために本当に小さな値を与えませんか、私は間違ったことをしていますか?

このリンクの擬似コードによれば、http://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html、bernoulliモデルの場合、| V |の代わりに2を追加するだけです。なぜそうなのか?

+1

コンピュータサイエンスの交換が存在していますか? – MordechayS

答えて

1

多項式ナイーブベイズの場合について考える。上で定義した平滑化は、決してゼロ確率を得ることができないようなものです。

多変量/ベルヌーイのケースでは、厳密に1の確率も許容されないという追加の制約があります。なぜなら、既知の語彙のtが文書dに存在しない場合、確率は1 - prob(t | c)となり、文書確率に掛け算されるからです。 prob(t | c)が1であれば、もう一度、これは0

の事後確率を生成するために起こっている(代わりにログを使用した場合、確率が1のとき同様に、log(1 - prob(t | c))が定義されていない)

だから、ベルヌーイの方程式(Nct + 1)/(Nc + 2)で両方のケースが保護されています。 Nct == Nc場合、確率は1/2ではなく1になります。また、これは関係なく、かどうかtの1/2の可能性を生産の結果は、(P(t | c) == 1/2)かない(1 - P(t | c) == 1/2

関連する問題