私は、Python Scikitを使用してテキスト分類を行い、TfidfVectorizerとMultinomialNBを使用する予定です。未知数予測のscikit分類子
しかし、私はMultinomialNBが常に既存の(既知の)カテゴリに私のサンプルを予測することに気付きました。例えば
、私が持っている場合:
category A: trained with sample "this is green"
category B: trained with sample "this is blue"
category C: trained with sample "this is red"
を、私は予測してみてください:"this is yellow"
確率は、この内のすべてのカテゴリで同じであるので、それは、私にcategory A
(またはその他を与えます場合)。
私の質問は、上記のテストケースで「不明」(または、なし、または偽、またはエラー)を与える分類器はありますか?
私は、テストケースが与えられたトレーニングセットで予測できなかったときを知りたいと思います。
my_classifier.predict_proba(X_test))
がすべて等しいか近い値(この例の場合は[[ 0.33333333 0.33333333 0.33333333]]
)の配列を返すかどうかを確認できます。確率はカテゴリごとに同じではないかもしれないので、
実際に、私は:)、値がデフォルトに接近しているかどうかを確認する必要があります
そう...任意のより良いアプローチをか...そこにあります私が使うことができる信頼限界を持つ分類器?あなたには、いくつかの非標識トレーニングデータを持っている場合は、事前に
おかげで、
ハム...これを現在のクラシファイアと組み合わせてテストします。サンプルが異常値とみなされた場合、私はそれを分類器に提出しません。ありがとう、それはまさに私が探していたものです。 – weeanon