XGBoostとSklearnのログ消失は同じですか？

私はXGBoostで新しいデータセットを使って遊んでいます。結果は、（中間結果を省略）であるXGBoostとSklearnのログ消失は同じですか？

import xgboost as xgb 
import pandas as pd 
import numpy as np 

train = pd.read_csv("train_users_processed_onehot.csv") 
labels = train["Buy"].map({"Y":1, "N":0}) 

features = train.drop("Buy", axis=1) 
data_dmat = xgb.DMatrix(data=features, label=labels) 

params={"max_depth":5, "min_child_weight":2, "eta": 0.1, "subsamples":0.9, "colsample_bytree":0.8, "objective" : "binary:logistic", "eval_metric": "logloss", "seed": 2333} 
rounds = 6000 

result = xgb.cv(params=params, dtrain=data_dmat, num_boost_round=rounds, early_stopping_rounds=50, as_pandas=True, seed=2333) 
print result

：私のコードで、次の

  test-logloss-mean test-logloss-std train-logloss-mean 
0    0.683354   0.000058   0.683206 
165   0.622318   0.000661   0.607680

しかし、私はGridSearchCVでパラメータチューニングをやろうとしている、私は結果がかなり異なることが判明しました。具体的には、これは私のコードです：

import xgboost as xgb 
from sklearn.model_selection import GridSearchCV 
from xgboost.sklearn import XGBClassifier 
import numpy as np 
import pandas as pd 

train_dataframe = pd.read_csv("train_users_processed_onehot.csv") 
train_labels = train_dataframe["Buy"].map({"Y":1, "N":0}) 
train_features = train_dataframe.drop("Buy", axis=1) 

params = {"max_depth": [5], "min_child_weight": [2]} 

estimator = XGBClassifier(learning_rate=0.1, n_estimators=170, max_depth=2, min_child_weight=4, objective="binary:logistic", subsample=0.9, colsample_bytree=0.8, seed=2333) 

gsearch1 = GridSearchCV(estimator, param_grid=params, n_jobs=4, iid=False, verbose=1, scoring="neg_log_loss") 
gsearch1.fit(train_features.values, train_labels.values) 

print pd.DataFrame(gsearch1.cv_results_) 
print gsearch1.best_params_ 
print -gsearch1.best_score_

と私が得た：

mean_fit_time mean_score_time mean_test_score mean_train_score 
0  87.71497   0.209772  -3.134132   -0.567306

3.134132 0.622318は非常に異なっていることは明らかです。これの理由は何ですか？

ありがとうございました！

出典

2016-12-13 DarkZero

私はこの問題についてさらに調査しました。http://stackoverflow.com/questions/41135987/why-xgboost-cv-and-sklearn-cross-val-score-give-different-results – DarkZero

あなたはに異なるパラメータを渡す両方：

MAX_DEPTH：0.1対0.3（デフォルト）
min_child_weight：2~4

パラメータVS 5 ETA

2対sklearnに渡すことはより保守的です（モデルのオーバーフィットされる可能性は低くなります）。そのため、アルゴリズムはあまりモデルをデータに適合させません。次に、2番目に低いスコアを得ます - まさに何が期待されるべきですか？

出典

2016-12-13 15:02:21

As私が知る限り、 'param'で指定されたパラメータは' XGBClassifier'で指定されたパラメータを上書きし、 'XGBClassifier'の' learning_rate'はXGBoostではちょうど 'eta'ですから、同じパラメータを渡していると思います。 – DarkZero

XGBoostとSklearnのログ消失は同じですか？

答えて

関連する問題