2016-11-15 24 views
1

私はpredict関数から得られるものと一致するように、xgboostモデルツリーから確率を生成する方法を理解しようとしています。xgboostモデルから予測を手動で構築する方法

まず私がモデル

library(xgboost) 
#install.packages("ModelMetrics") 
library(ModelMetrics) 

set.seed(100) 

# - Extreme gbm 
y = as.integer(testDF$y) 

x = testDF[,-which(names(testDF) %in% c('y'))] 
var.names <- names(x) 
x = as.matrix(x) 
x = matrix(as.numeric(x),nrow(x),ncol(x)) 

nround = 10 

XX <- xgboost(param=param, data = x, label = y, nrounds=nround, missing = NA) 

は、その後、私は今、私は1行を選ぶとしようとした特定の葉

baseTree <- xgb.model.dt.tree(model = XX) 

Leafs <- filter(baseTree, Feature == 'Leaf') 
Branches <- filter(baseTree, Feature != 'Leaf') 

Branches$Feature = var.names[as.numeric(Branches$Feature) + 1] 

FullRules = rep(NA, nrow(Leafs)) 


AllRules <- foreach(i = 1:nrow(Leafs), .combine = 'rbind') %do% { 

    theLeaf = Leafs[i,] 
    theNode = theLeaf$Node 
    theID = theLeaf$ID 

    count = 1 

    RuleText = '' 
    while(theNode != 0){ 

    FF <- filter(Branches, Yes == theID | No == theID | Missing == theID) 
    isYes = FF$Yes == theID 
    isNo = FF$No == theID 
    isMissing = FF$Missing == theID 

    FullRules[i] = ifelse(isYes & isMissing 
     , paste0("(", FF$Feature, " < ", FF$Split, " | is.na(", FF$Feature, "))") 
     , NA) 
    FullRules[i] = ifelse(isNo & isMissing 
     , paste0("(", FF$Feature, " >= ", FF$Split, " | is.na(", FF$Feature, "))") 
     , FullRules[i]) 
    FullRules[i] = ifelse(isYes & !isMissing 
     , paste0(FF$Feature, " < ", FF$Split) 
     , FullRules[i]) 
    FullRules[i] = ifelse(isNo & !isMissing 
     , paste0(FF$Feature, " >= ", FF$Split) 
     , FullRules[i]) 
    FullRules[i] = ifelse(isMissing & !isYes & !isNo 
     , paste0("is.na(", FF$Feature, ")") 
     , FullRules[i]) 

    if(count == 1){ 
     RuleText = FullRules[i] 
    } else{ 
     RuleText = paste0(RuleText, " & ", FullRules[i]) 
    } 

    theNode = FF$Node 
    theID = FF$ID 
    count = count + 1 
    } 

    data.frame(
    Leafs[i,] 
    ,RuleText 
) 

} 

につながるルールのすべてを構築するためのいくつかのコードを書いてビルドします確率と一致する。この場合、それは一致します。この特定の顧客に対して満たされたすべてのルールについて、ループが進行し、TRUEと表示されます。次に、これらの行に絞り込み、それらを合計してlogoddsの見積もりを得ることができます。そして、それらを確率に変換します。

TT <- testDF[25,] 

ff <- foreach(i = 1:nrow(AllRules), .combine = 'rbind') %do% { 
    TT %>% transmute_(
    Tree = as.character(AllRules$RuleText[i]) 
    , Quality = AllRules$Quality[i]) 
} 


predict(XX, as.matrix(TT[,var.names])) 
#[1] 0.05571342 

filter(ff, Tree) %>% 
    summarise(
    Q1 = sum(sqrt(Quality^2)) 
    # ,Q2 = sum(sqrt(Quality^2)) 
    , Prob1 = exp(Q1)/(1+exp(Q1)) 
    , Prob2 = 1-Prob1 
    ) 
#  Q1  Prob1  Prob2 
#1 2.830209 0.9442866 0.0557134 

しかし、この場合には、それはあなただけの人がために収まって個々の葉の値を合計する必要が予測を生成するには...機能を予測

TT <- testDF[17,] 

ff <- foreach(i = 1:nrow(AllRules), .combine = 'rbind') %do% { 
    TT %>% transmute_(
    Tree = as.character(AllRules$RuleText[i]) 
    , Quality = AllRules$Quality[i]) 
} 


predict(XX, as.matrix(TT[,var.names])) 
#[1] 0.1386877 

filter(ff, Tree) %>% 
    summarise(
    Q1 = sum(sqrt(Quality^2)) 
    # ,Q2 = sum(sqrt(Quality^2)) 
    , Prob1 = exp(Q1)/(1+exp(Q1)) 
    , Prob2 = 1-Prob1 
    ) 
#  Q1 Prob1 Prob2 
#1 1.967608 0.877354 0.122646 

答えて

1

と一致していません各ブースター

filter(ff, Tree) %>% 
    summarise(
    Q1 = sum(Quality) 
    , Prob1 = exp(Q1)/(1+exp(Q1)) 
    , Prob2 = 1-Prob1 
    ) 
関連する問題