2017-11-07 6 views
-1

が必要です。現実の世界では、スパムは約1%です。サンプル入力があると、約1%のスパムが予想されます。はナイーブベイズテキスト分類は、ベイズ式であることを考えると、実世界のデータ

クラシファイアをトレーニングしているときに、迷惑メールが1%しかないドキュメントを使用してトレーニングするか、現実の世界で見つかると予想される迷惑メールの割合が非常に高い分類子を練習しても問題ありません。

私はスパムの非常に大きな割合を持っている場合は、

P(A) 

の値が異常に大きいことになるだろうからだ。私は、これを聞いてこれは私のクラシファイアを捨てるでしょうか?この場合、いくつかの "ハム"文書を "スパム"として分類しますか?

答えて

0

ベイジアン推定量を学習するには、PDFをP(X | H)とP(X | S)で学習する必要があります。ここで、Xは現在の観測値、Hはスパム/ハムクラスを表します。そのクラスの例から、すなわち、P(X | H)はハムサンプルのみから学習され、P(X | S)はスパムサンプルからのみ学習される。スパムとハムのサンプル数が現実を反映していれば、この点はあまり関係ありません。しかし、後で適切なベイジアン推定を行うには、P(H)とP(S)を推定する必要があり、現実的にスパム/ハムの割合を捕捉する必要があります。

関連する問題