logistic regressionには比較的新しいです。これはPythonでSciKit learnを使用しています。いくつかの話題を読み、いくつかのデモを見ると、私は自分自身で潜水することに決めました。ロジスティック回帰で予測する(Python Sci Kit Learn)
基本的に、いくつかの機能に基づいて、顧客のコンバージョン率を予測しようとしています。その結果は、アクティブ(1)またはアクティブではありません(0)です。私はKNNとロジスティック回帰を試しました。 KNN平均精度は0.893
であり、ロジスティック回帰0.994
となります。後者はとても高いようですが、現実的/可能なのでしょうか?
とにかく私のモデルが確かに非常に正確だとしたら、同じフィーチャ欄を持つ新しいデータセットをインポートして、その変換を予測します(今月終了)。上記の場合、精度スコアを得るためにcross_val_score
を使用しました。
新しいセットをインポートする必要がありますか、何とか新しいセットをこのモデルに適合させる必要があります。 (もう一度練習しないで、今すぐ使用したいだけです)
私はどのように進めることができますか教えてください。追加情報が必要な場合は、その点についてコメントしてください。
ありがとうございます!
精度/誤分類率が唯一ではないディスク
負荷にモデルを保存定義され、そこにX、Yを想定しますあなたが見なければならないメトリックまた、クラスごとの精度を調べる必要があります。たとえば、100行に99個の1とゼロがあり、モデルがすべての行について100と予測する場合、99%の精度がありますが、モデルのゼロ予測がうまくいかない可能性があります。オーバー/アンダーサンプリングによってこれをトラブルシューティングすることができます。 –
モデルを訓練したら、予測機能を使用して新しいデータをモデルに渡すことができます。例: 'clf'がモデルオブジェクトであれば、' clf.predict(test_data) 'を使うことができます。これは予測を返します。 '.fit'を使って新しい新しいデータセットを渡すと、それに応じてモデルが更新されます。予測が必要なだけで、モデルを変更したくない場合は、 '.predict'メソッドを直接使うべきです。あなたの質問に答えているので、この場合、予測する必要があります。フィッティングは必要ありません。 –
ありがとう、私のデータセットでActive(1)は68%、Not Active(0)32%で発生します。それは大丈夫と思われる。 –