私は現在データサイエンスコースに在籍しており、私のプロジェクトの1つは従業員の失業を予測するモデルを作成することです。統計モデルのR2が低く、シークレットの精度/精度が高い
私は使用しているモックデータセットを持っています。私はすでにXとYを設定しています。
私は4つのモデルを実行しました。最初は、統計モデルでロジスティック回帰を実行していました。その出力はPseudo Rsquared 0.142で、かなり低いです。
しかし、私はscikit learn(ロジスティック回帰、k最近隣と決定木)で走った次の3つのモデルです。これらのモデルでは、XとYを列車とテストセットに分割しました。それぞれについて、私は精度と精度のスコアを実行し、それらはすべて75%を超えています。また、私は各モデルで75%以上のクロスバリデーションスコアを走らせました。
私の質問は、私のscikitの学習モデルとstatsmodelを実行しているそのような低いR2で高い得点を得ることはどうですか?
このような状況は起こりますか?もしそうなら、どのように説明することができますか?ありがとう!
ようこそ。この問題を解決しようとしたコードやエラーメッセージなど、十分な具体的な情報で質問を改善するには、この[how-to-ask](http://stackoverflow.com/help/how-to-ask)をお読みください。 – thewaywewere
たぶん、私はあなたを誤解しましたが、R2はエラーの尺度なので、エラーが低い場合は、それに対応してスコアが高くなります。すべては私には大丈夫だと思われる –
これは非常に不明です。あなたが解決している問題:それは回帰か分類ですか?あなたは 'R2'を測定したと言います、それはその回帰のようです。しかし、正確さと正確さを計算すると言っていますか?精度と精度は、回帰ではなく分類に使用されます。両方のライブラリのコードといくつかのデータを投稿できますか? –