2017-08-01 10 views
1

は私をH 2 Oで、米国の空港でディープラーニングモデルをタクシーアウト時間を予測しようとしています:h2o deeplearning:入力変数のインパクト/係数は何ですか?

#Deep learning neural network 

    deep<-h2o.deeplearning(
    training_frame = train, 
    validation_frame = valid, 
    x=predictors, 
    y=target, 
    #distribution = "gaussian", 
    #loss = "Automatic", 
    hidden=c(200,200,200), 
    epochs = 50, 
    #activation="Rectifier", 
    stopping_metric="deviance", 
    stopping_tolerance=1e-4,  # stops when deviance does not improve by 
            >=0.0001 for 5 scoring events 
) 

    summary(deep) 

これが切り捨て変数の重要度のリストである:

変数重要度:

  variable relative_importance scaled_importance percentage 
1  Event_1.Fog   1.000000   1.000000 0.024205 
2 Event_2.Rain   0.983211   0.983211 0.023799 
3  CARRIER.NK   0.946493   0.946493 0.022910 
4 Event_1.noevent   0.936131   0.936131 0.022659 
5  cos_deptime   0.934558   0.934558 0.022621 

I 「重要度」は変数の相対的な影響として計算されますが、その変数がタクシーアウトの時間を増減するのにどのように役立つかをどのように知るのでしょうか。 h2oは各変数の係数を符号で示していますか? 私はこの文書http://h2o-release.s3.amazonaws.com/h2o/latest_stable_doc.htmlを読んだことがありますが、例えば、可変霧や雨がタクシーアウトの時間や量を増減するかどうかは説明していません。

答えて

1

H2Oディープラーニング(またはその問題についてはRFまたはGBM)の重要な変数は、GLM(陽性または陰性)の係数の大きさと同じ解釈ではありません。 「結果を予測する上でこの変数がどれくらい重要か」と解釈することができ、指標はモデル内の他の変数と相対的です。

H2O Deep Learning documentationに記載されているように、私たちはこの尺度を計算するためにGedeon法と呼ばれる手法を使用します。 (RFとGBMは異なる方法を使用します)。

関連する問題