線形分類モデル(ロジスティックのうちの1つ)で与えられたパラメータの「影響」を感じる最も簡単な選択肢の1つは、その係数の大きさに対応するパラメータを使用します。これは最も基本的であることを
m.fit(X/np.std(X, 0), y)
print(m.coef_)
注:
import numpy as np
from sklearn.linear_model import LogisticRegression
x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])
m = LogisticRegression()
m.fit(X, y)
# The estimated coefficients will all be around 1:
print(m.coef_)
# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)
同様の結果を得るための別の方法が標準化されたパラメータのモデルフィットの係数を調べることです。
この例を考えてみましょう(p値、ブートストラップスコア、様々な「識別指標」などを使用して)特徴の重要性またはパラメータの影響を見つけるための他の多くの技術が存在する。
https://stats.stackexchange.com/でもっと面白い回答が得られると確信しています。
もっと具体的な例を含めることができますか? – carlosdc
悪性腫瘍や悪性腫瘍のようなテストケースを決定するために、腫瘍の大きさ、腫瘍の重さなどの特徴があると言います。どの機能が悪性ではなく悪性の予測に重要かを知りたい。それは一種の意味ですか? – mgokhanbakal