TFIDF変換を使用してドキュメントを連続値フィーチャにエンコードしたとします。TFIDFベクターを多項式ナイーブベイでどのように使用できますか?
これをNaive Bayesクラシファイアへの入力としてどのように使用するのですか?
私たちの機能はもうバイナリではないため、ベルヌーイ・ナイーブ・ベイズが出ています。
多項式naive-bayesを使うことはできません。なぜなら、値はカテゴリではなく連続であるからです。
代わりに、ガウスのナイーブベイを使用するのが適切でしょうか? TFIDFベクトルは、ガウス分布仮定の下でうまくいっているでしょうか?
SCI-キットはMultionomialNBのドキュメントには、以下の示唆を学ぶ:
多項単純ベイズ分類器は、個別の機能を備えた分類 に適している(例えば、テキスト分類のためのワードカウント)。 多項分布は通常、整数の特徴数を必要とします。 しかし、実際には、tf-idfなどの分数カウントも機能する場合があります。
MultinomialNBの分数値を使用することは基本的に不可能ではありませんか?
私はそれを理解し、尤度関数自体は、我々は離散数を扱っていることを前提として(since it deals with counting/factorials)
どのようにTFIDF値も、この式では動作しますか?