2016-10-17 10 views
2

私は信用リスクに関する分析でLDeを使用するためにHMeasureパッケージを使用します。私は11000のobsを持っており、分析を発展させるために年齢と収入を選択しました。 LDAのR結果をどのように解釈するのか正確には分かりません。だから、私は信用リスクに応じて最良の変数を選択したかどうかはわかりません。 私はコードの下にあなたを示します。 ETA = AGEとSTIPENDIO =所得LDA解釈

どうもありがとう

lda(default ~ ETA, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA 
0 34.80251 
1 37.81549 

Coefficients of linear discriminants: 
         LD1 
ETA 0.1833161 

lda(default~ ETA + Stipendio,  train) 

Call: 
lda(default ~ ETA + Stipendio, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA Stipendio 
0 34.80251  1535.531 
1 37.81549  1675.841 

Coefficients of linear discriminants: 
                 LD1 
ETA       0.148374799 
Stipendio 0.001445174 

lda(default~ ETA, train) 
ldaP <- predict(lda, data= test) 

答えて

1

LDAは、各クラスの平均と分散を使用して、それらの間に線形境界(または分離)を作成します。この境界は、係数によって区切られる。

2種類のモデルがあります.1つは変数ETAに依存し、1つはETAStipendioに依存します。

最初に見えるのはPrior probabilities of groupsです。これらの確率は、トレーニングデータに既に存在する確率です。私。トレーニングデータの47.17%は、0と評価された信用リスクに対応し、トレーニングデータの52.82%は1と評価される信用リスクに対応します(0は「非危険」を意味し、1は「危険」を意味すると仮定します)。これらの確率は、両方のモデルで同じです。

あなたが見ることができる2番目のものは、各クラス内の各プレディクタの平均であるグループ平均です。これらの値は、変数ETAがリスクのないクレジット(34.8025)よりもリスクのあるクレジット(37.8154)に多少大きな影響を及ぼす可能性があることを示唆しています。この状況は、2番目のモデルの変数Stipendioでも発生します。

最初のモデルにおけるETAの計算係数は0.1833161です。

y = 0.1833161 * ETA 

これは以下lineで表すことができる(xが可変ETAを表す):これは、2つの異なるクラス間の境界は、以下の式で指定されることを意味します。 0または1の信用リスクは、そのラインのどちら側にあるかによって予測されます。

enter image description here

クラス間の境界は、この式で区切られますので、あなたの第2のモデルは、2つの従属変数、ETAStipendioが含まれています。あなたが見ることができる

y = 0.148374799 * ETA + 0.001445174 * Stipendio 

ように、この式はplaneを表し。 (x1ETAを表し、x2Stipendioを表す)。前のモデルと同様に、この平面は危険なクレジットと危険でないクレジットの差を表します。この第2のモデルで

enter image description here

ETA係数は、元の変数が後で変数より信用リスク度に大きな影響力を持っていることを示唆しStipendio係数、そのはるかに大きいです。

こちらがお役に立てば幸いです。