2017-01-31 2 views
1

私は、分類の問題としてxgboostを使用しています。 私は基本的な質問があります。 列車とテスト(見えない)の各ラウンドのAUCは以下の通りです。 あなたが見ることができるように、テストセットのAUCは0に近いです。何が起こっているのか理解してくれたら助かりますか?カーブ下の面積を0にすることはできますか?

私はPythonを使用しています。必要に応じてコードとデータを投稿することができます。 おかげ

[0]  test-auc:0.4375 train-auc:0.881865 
[1]  test-auc:0.25 train-auc:0.947957 
[2]  test-auc:0.166667  train-auc:0.982759 
[3]  test-auc:0.166667  train-auc:0.984674 
[4]  test-auc:0  train-auc:0.996169 
[5]  test-auc:0  train-auc:0.998723 
[6]  test-auc:0  train-auc:0.998723 
[7]  test-auc:0  train-auc:0.999361 
[8]  test-auc:0.041667  train-auc:1 
[9]  test-auc:0.041667  train-auc:1 
[10] test-auc:0.041667  train-auc:1 
[11] test-auc:0.041667  train-auc:1 
[12] test-auc:0  train-auc:1 
[13] test-auc:0  train-auc:1 

答えて

2

0のAUCは、予測は、テストセット内のすべてのサンプルのために間違ったクラスを予測することを意味します。

トレーニングセットのAUCを見ると、テストセットのサイズが小さすぎるか、テスト予測のAUCをプロットするために間違った(反対の)クラスを選択したことを意味します。

+0

お返事ありがとうございます。 2番目のオプション(間違ったクラス)はそうではありません...私は二重チェックしました。 {0:54、1:29} テストラベル配布: {0:6、1:4} 列車のラベル配布...これは私のクラスの分布である最初のオプションについては – gabboshow

+0

私はあなたを言いますよデータセット全体が小さくなります。誤って4のうち4つを予測してAUCを0にすることは非常に簡単です –

+0

これらの結果は十字検証の10倍のうちの1つに対してでした...私はk = 3に設定しようとします... – gabboshow

関連する問題