が必要です。現実の世界では、スパムは約1%です。サンプル入力があると、約1%のスパムが予想されます。はナイーブベイズテキスト分類は、ベイズ式であることを考えると、実世界のデータ
クラシファイアをトレーニングしているときに、迷惑メールが1%しかないドキュメントを使用してトレーニングするか、現実の世界で見つかると予想される迷惑メールの割合が非常に高い分類子を練習しても問題ありません。
私はスパムの非常に大きな割合を持っている場合は、
P(A)
の値が異常に大きいことになるだろうからだ。私は、これを聞いてこれは私のクラシファイアを捨てるでしょうか?この場合、いくつかの "ハム"文書を "スパム"として分類しますか?