0

私は現在、マルチクラスの分類の問題でscikit-learnからLogisticRegressionを使用しています。 LogisticRegressionを使用することに決めました。なぜなら、LogisticRegressionを返す予測確率の観点から、よく較正されたアルゴリズムとして説明している記事をいくつか読んでいるからです。LogisticRegression予測確率

クラシファイアの各結果について、私は、その予測確率と、同じ決定クラスを有するトレーニングセット内の分類された観測と残りの例との間の距離とを検査する。

クラスが90%以上の信頼度で予測されているにもかかわらず、コサイン類似度測定では、与えられた例が平均で同じトレーニングセットのクラス。

なぜこのような不一致が観測されたのかを知りたい人はいらっしゃいますか?

私は、同じクラスの他の観測とはかなり離れている例では、LogisticRegressionアルゴリズムは低い予測確率を返すと思います。

答えて

1

ロジスティック回帰/分類は、決定境界に関して結果を提供するが、境界の同じ側にある(すなわち、同じクラスに属する)点は、余弦距離が小さい(または小さなユークリッド距離)。

y = 0以下のすべての点が1つのクラスに属し、上のすべての点が他のクラスに属するxy平面の点を考慮してください。点(-1000,1)と(1000,1)は同じクラスに属しますが、それらの間には比較的大きなコサイン距離があります。一方、点(1000,1)と(1000、-1)は異なるクラスに属するが、コサイン距離は非常に小さい。

関連する問題