pythonを使用した多項ロジスティック回帰を使用してフィーチャ選択(1,00,000行と32個のフィーチャを持つデータセット)を実行しています。次に、フィーチャを順番に選択する最も効率的な方法マルチクラス目標変数(1,2,3,4,5,6,7)のモデルを構築する?Pythonのマルチクラスロジスティック回帰における機能選択
-1
A
答えて
1
もちろん、あなたの機能を選択する方法はいくつかあります。しかし、時々次の簡単なアプローチはあなたを助けることができます。線形モデルの助けを借りて、(結果変数の潜在的な予測によって)フィーチャの寄与を評価することができます。これは主に、あなたの機能と回答との間に線形依存があると思われる状況で機能することに注意してください。
import statsmodels.formula.api as smf
# Lottery here is Y, the fields from X are right of ~
mod = smf.ols(formula='Lottery ~ Literacy + Wealth + Region', data=df)
res = mod.fit()
print(res.summary())
OLS Regression Results
==============================================================================
Dep. Variable: Lottery R-squared: 0.338
Model: OLS Adj. R-squared: 0.287
Method: Least Squares F-statistic: 6.636
Date: Tue, 28 Feb 2017 Prob (F-statistic): 1.07e-05
Time: 21:36:08 Log-Likelihood: -375.30
No. Observations: 85 AIC: 764.6
Df Residuals: 78 BIC: 781.7
Df Model: 6
Covariance Type: nonrobust
===============================================================================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------------------------------------
Intercept 38.6517 9.456 4.087 0.000 19.826 57.478
Region[T.E] -15.4278 9.727 -1.586 0.117 -34.793 3.938
Region[T.N] -10.0170 9.260 -1.082 0.283 -28.453 8.419
Region[T.S] -4.5483 7.279 -0.625 0.534 -19.039 9.943
Region[T.W] -10.0913 7.196 -1.402 0.165 -24.418 4.235
Literacy -0.1858 0.210 -0.886 0.378 -0.603 0.232
Wealth 0.4515 0.103 4.390 0.000 0.247 0.656
==============================================================================
Omnibus: 3.049 Durbin-Watson: 1.785
Prob(Omnibus): 0.218 Jarque-Bera (JB): 2.694
Skew: -0.340 Prob(JB): 0.260
Kurtosis: 2.454 Cond. No. 371.
==============================================================================
R-平方根の値が大きいほど、選択したフィーチャの組み合わせが線形モデルで応答を予測できるようになります。線形モデルで予測できるのであれば、意思決定ツリーなどのより複雑なモデルではさらに大きな可能性を秘めています。
詳細は、次ページ(データのエラーが正しい結果を取得するために不均一である場合にいくつかの追加のデータ処理が必要な場合がありますのでご了承ください)を表示してください: http://www.statsmodels.org/dev/example_formulas.html
をそしてもちろん、私はお勧めしますフィーチャーのペアプロットも作成します。
この方法はあまり深くなく、相関関係や参照先を参照しますが、困難な状況では実用的でない場合があります。
関連する問題
- 1. SciKitのマルチクラスロジスティック回帰Learn
- 2. 回帰データのScikit-learn機能の選択
- 3. 回帰における特徴選択と予測精度Rの森R
- 4. ニューラルネットワークにおける回帰モデルの出力層の活性化機能
- 5. Rのロジスティック回帰における機器変数(AERのivreg)
- 6. 機械学習における連続回帰
- 7. 機械学習におけるマルチラベル/マルチタスク/マルチクラス回帰
- 8. 重回帰における定数値
- 9. 機能の選択とテキストマイニングにおけるドキュメントの類似性の評価
- 10. Pythonマシンの学習、機能の選択
- 11. 再帰回文機能
- 12. Pythonでの複数回帰(因子選択あり)
- 13. 再帰的選択ソートpython
- 14. pythonのロジスティック回帰における正則化パラメータの発見方法scikit-learn?
- 15. 選択機能
- 16. ロジスティック回帰における順序付け
- 17. ロジスティック回帰における因子の名前の変更
- 18. テンソルフローにおけるニューラルネットワークの回帰:コードの誤り
- 19. ショーの機能名機能の選択
- 20. JavaScript選択機能
- 21. コール機能選択
- 22. ポアソン回帰における予測関数の作成
- 23. scikit-learn KNN回帰におけるn_neighborsの変化
- 24. テンソルフローにおける高速softmax回帰の実装
- 25. R - 非線形モデルにおけるBiglmのパネルデータ回帰
- 26. 回帰におけるカスタムロール修正の効果
- 27. 前処理データ:回帰におけるデータラベルの正規化?
- 28. ロジスティック回帰における新しい値の予測
- 29. パネルデータ回帰における野生クラスターのブートストラップR
- 30. 分布テンソルのロジスティック回帰におけるコンバージェンス
機能の選択は*巨大な*トピックです。私はこの質問をあまりにも広すぎると締めくくっています。 –
これは統計的な質問によく似ており、 にあるはずです。しかし、あなたにグーグルに何かを与えるために:機能を選択するためにラッソを行うことができます。しかし、ええ、それは巨大な話題です。 –
ウェブ上でのボルタの機能の選択を確認してください。[link](https://github.com/scikit-learn-contrib/boruta_py)私はそれを試して、うまくいきます。これはSklearnインターフェイスに似ていますので、分類器/回帰器を選択して適用することができます。しかしながら、特徴の選択/抽出には非常に多くの方法がある – sera