私は現在、マルチクラスの分類の問題でscikit-learnからLogisticRegressionを使用しています。 LogisticRegressionを使用することに決めました。なぜなら、LogisticRegressionを返す予測確率の観点から、よく較正されたアルゴリズムとして説明している記事をいくつか読んでいるからです。LogisticRegression予測確率
クラシファイアの各結果について、私は、その予測確率と、同じ決定クラスを有するトレーニングセット内の分類された観測と残りの例との間の距離とを検査する。
クラスが90%以上の信頼度で予測されているにもかかわらず、コサイン類似度測定では、与えられた例が平均で同じトレーニングセットのクラス。
なぜこのような不一致が観測されたのかを知りたい人はいらっしゃいますか?
私は、同じクラスの他の観測とはかなり離れている例では、LogisticRegressionアルゴリズムは低い予測確率を返すと思います。