2011-02-04 9 views

答えて

5

確率はです。これはの対数です。大きな訓練されたセットでは、実際の確率は非常に小さいので、対数は比較が容易です。理論的には、スコアは、無限に近いゼロから負の無限大までの範囲である。 10**score * 100.0実際の確率は実際に最大100となります。

+1

+1 'classifications'メソッドの[source](http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html)を確認したところで、あなたは正しいです。 –

+0

これは理にかなっていますが、私はまだ実際の確率の式では苦労しています。私のセットの典型的な得点は-8.84のようなものです。だから10 *( - 8.84)* 100 = 840。私はまだ何かが欠けている。 –

+1

10に-8.84を掛けたようです。 10を「-8.84」乗に上げなければなりません。 –

4

実際には、bがベースの典型的なナイーブベイズ分類子の確率を計算すると、b^score /(1 + b^score )。これは逆logit(http://en.wikipedia.org/wiki/Logit)ですが、NBCの独立性の仮定を前提にすると、これらのスコアは高すぎたり低すぎたりする傾向があり、このように計算された確率は境界に蓄積します。ホールドアウトセットのスコアを計算し、得点と確率の間の関係をより良く感じるためには、正確な(1または0)スコアのロジスティック回帰を行う方が良いです。ジェイソン・レニー紙から

: 2.7ナイーブベイズ出力はOvercondent テキストデータベースが頻繁に 10,000〜100,000に明確な語彙を持っていることが多いです。ドキュメントには、しばしば100以上の の用語が含まれます。したがって、重複する大きな機会があります。 どれくらいの重複があるかを知るために、Naive Bayes モデルをマップし、20のニュースグループ文書の80%を訓練しました。データの残りの20%にp(cjd; D)(後方) 値を作成し、maxc p(cjd; D)の統計を 表2.3に示しました。値は非常に過度です。テスト文書の60%には小数点以下9桁に丸めたときに1の後に が割り当てられます。ロジスティック回帰とは異なり、Naive Bayesは、妥当な確率値を生成するために最適化されていません。ロジスティック回帰 は、適切な の確率値に適切な訓練データを用いて収束する、線形補間の共同最適化を実行する。 Naive Bayesは、 を1つずつ最適化します。独立性の仮定 が成り立つときにのみ、現実的な出力を生成する。フィーチャに重複した重大な情報が含まれている場合(通常、テキストの場合は )、Naive Bayesによって提供されたポストは非常に過度です。

関連する問題