私はruby classifier gemを使用しています。その分類方法は、訓練されたモデルに対して分類された特定の文字列のスコアを返します。ベイジアンクラシファイアスコアは何を表していますか?
スコアはパーセントですか?もしそうなら、最大差は100ポイントですか?
私はruby classifier gemを使用しています。その分類方法は、訓練されたモデルに対して分類された特定の文字列のスコアを返します。ベイジアンクラシファイアスコアは何を表していますか?
スコアはパーセントですか?もしそうなら、最大差は100ポイントですか?
確率はです。これはの対数です。大きな訓練されたセットでは、実際の確率は非常に小さいので、対数は比較が容易です。理論的には、スコアは、無限に近いゼロから負の無限大までの範囲である。 10**score * 100.0
実際の確率は実際に最大100となります。
実際には、bがベースの典型的なナイーブベイズ分類子の確率を計算すると、b^score /(1 + b^score )。これは逆logit(http://en.wikipedia.org/wiki/Logit)ですが、NBCの独立性の仮定を前提にすると、これらのスコアは高すぎたり低すぎたりする傾向があり、このように計算された確率は境界に蓄積します。ホールドアウトセットのスコアを計算し、得点と確率の間の関係をより良く感じるためには、正確な(1または0)スコアのロジスティック回帰を行う方が良いです。ジェイソン・レニー紙から
: 2.7ナイーブベイズ出力はOvercondent テキストデータベースが頻繁に 10,000〜100,000に明確な語彙を持っていることが多いです。ドキュメントには、しばしば100以上の の用語が含まれます。したがって、重複する大きな機会があります。 どれくらいの重複があるかを知るために、Naive Bayes モデルをマップし、20のニュースグループ文書の80%を訓練しました。データの残りの20%にp(cjd; D)(後方) 値を作成し、maxc p(cjd; D)の統計を 表2.3に示しました。値は非常に過度です。テスト文書の60%には小数点以下9桁に丸めたときに1の後に が割り当てられます。ロジスティック回帰とは異なり、Naive Bayesは、妥当な確率値を生成するために最適化されていません。ロジスティック回帰 は、適切な の確率値に適切な訓練データを用いて収束する、線形補間の共同最適化を実行する。 Naive Bayesは、 を1つずつ最適化します。独立性の仮定 が成り立つときにのみ、現実的な出力を生成する。フィーチャに重複した重大な情報が含まれている場合(通常、テキストの場合は )、Naive Bayesによって提供されたポストは非常に過度です。
+1 'classifications'メソッドの[source](http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html)を確認したところで、あなたは正しいです。 –
これは理にかなっていますが、私はまだ実際の確率の式では苦労しています。私のセットの典型的な得点は-8.84のようなものです。だから10 *( - 8.84)* 100 = 840。私はまだ何かが欠けている。 –
10に-8.84を掛けたようです。 10を「-8.84」乗に上げなければなりません。 –