-1

pythonを使用した多項ロジスティック回帰を使用してフィーチャ選択(1,00,000行と32個のフィーチャを持つデータセット)を実行しています。次に、フィーチャを順番に選択する最も効率的な方法マルチクラス目標変数(1,2,3,4,5,6,7)のモデルを構築する?Pythonのマルチクラスロジスティック回帰における機能選択

+2

機能の選択は*巨大な*トピックです。私はこの質問をあまりにも広すぎると締めくくっています。 –

+1

これは統計的な質問によく似ており、にあるはずです。しかし、あなたにグーグルに何かを与えるために:機能を選択するためにラッソを行うことができます。しかし、ええ、それは巨大な話題です。 –

+0

ウェブ上でのボルタの機能の選択を確認してください。[link](https://github.com/scikit-learn-contrib/boruta_py)私はそれを試して、うまくいきます。これはSklearnインターフェイスに似ていますので、分類器/回帰器を選択して適用することができます。しかしながら、特徴の選択/抽出には非常に多くの方法がある – sera

答えて

1

もちろん、あなたの機能を選択する方法はいくつかあります。しかし、時々次の簡単なアプローチはあなたを助けることができます。線形モデルの助けを借りて、(結果変数の潜在的な予測によって)フィーチャの寄与を評価することができます。これは主に、あなたの機能と回答との間に線形依存があると思われる状況で機能することに注意してください。

import statsmodels.formula.api as smf 

# Lottery here is Y, the fields from X are right of ~ 
mod = smf.ols(formula='Lottery ~ Literacy + Wealth + Region', data=df) 
res = mod.fit() 
print(res.summary()) 

OLS Regression Results        
============================================================================== 
Dep. Variable:    Lottery R-squared:      0.338 
Model:       OLS Adj. R-squared:     0.287 
Method:     Least Squares F-statistic:      6.636 
Date:    Tue, 28 Feb 2017 Prob (F-statistic):   1.07e-05 
Time:      21:36:08 Log-Likelihood:    -375.30 
No. Observations:     85 AIC:        764.6 
Df Residuals:      78 BIC:        781.7 
Df Model:       6           
Covariance Type:   nonrobust           
=============================================================================== 
        coef std err   t  P>|t|  [0.025  0.975] 
------------------------------------------------------------------------------- 
Intercept  38.6517  9.456  4.087  0.000  19.826  57.478 
Region[T.E] -15.4278  9.727  -1.586  0.117  -34.793  3.938 
Region[T.N] -10.0170  9.260  -1.082  0.283  -28.453  8.419 
Region[T.S] -4.5483  7.279  -0.625  0.534  -19.039  9.943 
Region[T.W] -10.0913  7.196  -1.402  0.165  -24.418  4.235 
Literacy  -0.1858  0.210  -0.886  0.378  -0.603  0.232 
Wealth   0.4515  0.103  4.390  0.000  0.247  0.656 
============================================================================== 
Omnibus:      3.049 Durbin-Watson:     1.785 
Prob(Omnibus):     0.218 Jarque-Bera (JB):    2.694 
Skew:       -0.340 Prob(JB):      0.260 
Kurtosis:      2.454 Cond. No.       371. 
============================================================================== 

R-平方根の値が大きいほど、選択したフィーチャの組み合わせが線形モデルで応答を予測できるようになります。線形モデルで予測できるのであれば、意思決定ツリーなどのより複雑なモデルではさらに大きな可能性を秘めています。

詳細は、次ページ(データのエラーが正しい結果を取得するために不均一である場合にいくつかの追加のデータ処理が必要な場合がありますのでご了承ください)を表示してください: http://www.statsmodels.org/dev/example_formulas.html

をそしてもちろん、私はお勧めしますフィーチャーのペアプロットも作成します。

この方法はあまり深くなく、相関関係や参照先を参照しますが、困難な状況では実用的でない場合があります。

関連する問題