pythonと機械学習のまったく新しい。pythonロジスティック回帰 - patsyデザインマトリックスとカテゴリデータ
私はロジスティック回帰モデルを構築しようとしています。私はラムダを得るためにRで働いており、クロスバリデーションを使って最良のモデルを見つけ出し、今はそれをPythonに移行しています。
ここで私はデザインマトリックスを作成し、それをスパースにしました。次に、ロジスティック回帰を実行しました。それは働いているようだ。
私の用語はitem_numberがダミー変数になっていることをどのように知っているのかというカテゴリです。そしてどのような係数が各カテゴリ名と一緒になるのかをどのように知ることができますか?
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression
from sklearn import preprocessing
def train_model (data, frm, Rlambda):
y, X = dmatrices(frm , data, return_type="matrix")
y = np.ravel(y)
scaler = sklearn.preprocessing.MaxAbsScaler(copy=False)
X_trans = scaler.fit_transform(X)
model = LogisticRegression(penalty ='l2', C=1/Rlambda)
model = model.fit(X_trans, y)
frm = 'purchase ~ price + C(item_number)'
Rlambda = 0.01
model, train_score = train_model(data1,frm,Rlambda)
ありがとうございます。しかし、私はカテゴリのデータを渡しているので、カテゴリの1つがダミー変数になって消えてはいけませんか? – tosh1611
'item_number'が1から5までの値をとり、' C(item_number) 'の後に4つのダミー(0,1を取る)を得るとします。係数とダミーの名前のマッチングについて本当に気にしているのであれば、まずデータセットにラベルを付ける必要があります。代わりに 'return_type = 'dataframe''を設定してください。 x.head()、x.columnsなどを使用して変数名を検索します。 – Nicholas