大きな欠損値(40%以上欠損)を持つデータセットがあります。 xgboostとH2oのグラジエントブースティングでモデル化された - 両方のケースでまともなモデルを得ました。しかし、xgboostはこの変数をモデルの主要な貢献者の1つとして示していますが、H2o Gradient Boostingによれば変数は重要ではありません。 xgboostは欠損値を持つ変数を別々に扱いますか?両方のモデルに対するすべての構成はまったく同じです。xgboostとH2oグラジエントブースト
1
A
答えて
4
2つの方法では、不足しているバリュー処理と変数のインポートが少し異なります。どちらも情報として欠損値を扱っている(つまり、彼らはそれらから学び、単純な定数で代用するだけではない)。変数importancesは、ツリー構築中のそれぞれの損失関数の利得から計算されます。 H2Oは二乗誤差を使用し、XGBoostは勾配とヘッセ行列に基づいてより複雑なものを使用します。
あなたが確認できることの1つは、さまざまなシードを使用した異なる実行間の変数の差異の差異で、各メソッドが変数の有効性の点でどの程度安定しているかを確認することです。
PS。カテゴリがある場合は、H2Oの要素として列を残しておく方がよいでしょう。独自のエンコーディングを行う必要はありません。これは、列とXGBoostのデータセットの有効なカウントが異なるため、列のサンプリングでは状況が異なります。
関連する問題
- 1. SVR、SVM、グラジエントブーストとXGBoostは永遠に実行します
- 2. xgboostとh2o機能の統合
- 3. H2Oランダムフォレストとxgboostでの重みカラムの使用
- 4. はh2o-xgboostでマルチCPUをサポートしていますか?
- 5. H2OエラーH2Oデータフレーム
- 6. H2OとPandas SparseDataFrame
- 7. XGBoostと疎行列
- 8. xgboost CVとツリーの数
- 9. PythonのXGBRegressorとRのXGBoost
- 10. XGBoost CVと早期停止
- 11. XGBoost(CV)CVテストとトレーニングエラー
- 12. xgboostインストールエラー
- 13. XGBoostインストールエラー
- 14. XGBOOST - DMATRIX
- 15. RとPythonのh2oパッケージ
- 16. ドッカーコンテナテンプレートと深層水H2O -
- 17. H2Oサーバークラッシュ
- 18. XGboost python - クラシファイアクラスウェイトオプション?
- 19. XGBoostのインストール
- 20. GridSearchCV - XGBoost - Early Stopping
- 21. Xgboost Num_class in R
- 22. XgBoost for Android
- 23. Jupyterノートxgboostインポート
- 24. xgboostバイナリロジスティック回帰
- 25. XGBoost in R
- 26. H2O python rbindエラー
- 27. H2O MOJOスレッドセーフ?
- 28. H2O + HDFS(Cloudera)
- 29. h2OのMAPEメトリック
- 30. R、h2o、foreach:java.lang.IllegalStateException