2017-08-03 10 views
2

私はバイナリ分類の問題(誤検出のコストが高い)の精度を最大限にしようとしています。データセットも実際に不均衡です。偽陽性に対抗するために、体重列を2回目に使用してDRFまたはXGBOOSTモデルを2回実行するのは理にかなっていますか?H2Oランダムフォレストとxgboostでの重みカラムの使用

これらのH2Oアルゴリズムには、この潜在的な方法の他に、(ログ損失ではなく)精度を最大化するための他の方法がありますか?私はアンサンブルを使うつもりです(精度を上げるようです)。相互検証は役に立ちません。

答えて

0

まず、balance_classes(trueに設定)を使用します。不均衡なデータがあればそれは少し助けになります。 (細かい制御が必要な場合はclass_sampling_factorsmax_after_balance_sizeもご覧ください)

1つのモデルの出力を使用して2番目のモデルを重み付けすることは、危険です。積み重ねられたアンサンブルのアイデアのように聞こえるが、手作業でコード化されたカスタムコードはバグを持つ可能性が高い。 (ただし、試してみると、コードと結果を見るのが面白いでしょう)

精度を最大限にするにはアンサンブルと一緒に行き、3つまたは4つの異なるモデル強みと弱み。例えば。 GBM、GLM、すべてのデフォルトを持つ深い学習モデル、次にドロップアウトを使用した深い学習モデル(および隠れたノードを追加して補償する)などがあります。

関連する問題