2016-01-26 9 views
8

私は、詐欺フィールドで文書のバイナリ分類のためのいくつかのモデルを用意しました。私はすべてのモデルのログ損失を計算しました。私はそれが本質的に予測の信頼性を測定していると思っていたし、ログの損失は[0-1]の範囲にあるはずです。クラスを決定する結果が評価目的には十分でない場合、それは分類における重要な尺度であると私は信じている。したがって、2つのモデルが非常に近いacc、recall、precisionを持つが、log loss関数が低いモデルは、決定プロセスで他のパラメータ/メトリック(時間、コストなど)がない場合に選択する必要があります。ログ損失出力が1より大きい

意思決定ツリーのログ損失は1.57で、他のすべてのモデルでは0-1の範囲です。どのようにこのスコアを解釈するのですか?

答えて

20

ログ損失には上限がないことを覚えておくことが重要です。ログの損失は[0,  ∞]

からです。Kaggleからログ損失の式が見つかります。 Y ijは IJ他のクラスとPの正しいクラスのための1と0である

Log Loss

は、そのクラスに割り当てられた確率です。

我々は平均対数損失が1を超える場合を見れば、それはログP IJ)< -1ときが真のクラスです。これは、与えられたクラスの予測確率がexp(-1)または0.368以下であることを意味します。したがって、モデルが実際のクラスの確率推定値が36%未満である場合には、1より大きなログ損失が発生することが予想されます。

また、さまざまな確率の見積もりを考慮してログ損失をプロットすることでもわかります。

Log Loss curve

+0

徹底的な回答ありがとうございました! – OAK

関連する問題