-2

私は現在データサイエンスコースに在籍しており、私のプロジェクトの1つは従業員の失業を予測するモデルを作成することです。統計モデルのR2が低く、シークレットの精度/精度が高い

私は使用しているモックデータセットを持っています。私はすでにXとYを設定しています。

私は4つのモデルを実行しました。最初は、統計モデルでロジスティック回帰を実行していました。その出力はPseudo Rsquared 0.142で、かなり低いです。

しかし、私はscikit learn(ロジスティック回帰、k最近隣と決定木)で走った次の3つのモデルです。これらのモデルでは、XとYを列車とテストセットに分割しました。それぞれについて、私は精度と精度のスコアを実行し、それらはすべて75%を超えています。また、私は各モデルで75%以上のクロスバリデーションスコアを走らせました。

私の質問は、私のscikitの学習モデルとstatsmodelを実行しているそのような低いR2で高い得点を得ることはどうですか?

このような状況は起こりますか?もしそうなら、どのように説明することができますか?ありがとう!

+0

ようこそ。この問題を解決しようとしたコードやエラーメッセージなど、十分な具体的な情報で質問を改善するには、この[how-to-ask](http://stackoverflow.com/help/how-to-ask)をお読みください。 – thewaywewere

+0

たぶん、私はあなたを誤解しましたが、R2はエラーの尺度なので、エラーが低い場合は、それに対応してスコアが高くなります。すべては私には大丈夫だと思われる –

+0

これは非常に不明です。あなたが解決している問題:それは回帰か分類ですか?あなたは 'R2'を測定したと言います、それはその回帰のようです。しかし、正確さと正確さを計算すると言っていますか?精度と精度は、回帰ではなく分類に使用されます。両方のライブラリのコードといくつかのデータを投稿できますか? –

答えて

0

私は一度も比較しなかったので、部分的な答えです。

(これはプログラミングの質問stats.stackexchangeより統計によく似ていますか?)

本質的に両方の測定値は直接的に関連していませんが、statsmodelsで使用される定義の疑似rsquareは、完全なモデルのloglikelihoodと定数のみを持つモデルのloglikelihoodを比較します。この測定値は対数尤度比のスケール上にあり、定数のみの参照モデルと比較して相対的な改善を示す。

精度と精度は、異なるスケールを使用する予測パフォーマンスを直接測定し、参照モデルと比較しない絶対的な尺度です。 たとえば、定数のみのモデルと比較して、予測尺度がどれだけ向上しているかを確認できます。

特定の尺度におけるもう1つの違いは、精度と精度が予測を閾値化して離散化することです。対照的に、対立は確率に基づいている。
たとえば、しきい値が0.5の場合。いずれの場合も0.500001または0.49999の確率での観測が正しい予測であるかもしれないが、確率は1および0から大きく離れている。

関連する問題