Binary_crossentropyとCategorical_crossentropyの混同

深い神経回路網を使ってバイナリクラス分類をしています。私がbinary_crossentropyを使用しているときはいつでも、私のモデルは良い精度を与えていません（ランダム予測に近い）。しかし、もし私が出力層のサイズを2にすることによってカテゴリクロスティトロピーを使用すると、私は0.90に近いわずか1エポックで良い精度を得ています。誰でもここで起こっていることを説明できますか？Binary_crossentropyとCategorical_crossentropyの混同

出典

2016-05-25 Avijit Dasgupta

興味深い現象。使用しているデータセットやコードに関する詳細を教えてください。 –

私はMarcinに同意します。さらに詳しい情報は非常に役に立ちます。 binary_corssentropyを使用しているときとcategorical_crossentropyを使用しているときの出力レイヤーのアクティベーション機能は何ですか？また、トレーニングセットのクラスバランスは10対1ですか？ – Dimosthenis

どちらの場合にも私が使用している起動機能はsoftmaxです。モデルは両方のケースで同じままです。バイナリクロスエントロピーの場合のみ、最終層のサイズは1であるのに対して、カテゴリは2である。他の情報が必要な場合は教えてください。 –

また、出力層でsoftmaxの有効化でbinary_crossentropyを使用しようとすると、この問題が発生します。私の知る限り、softmaxは各クラスの確率を示します。したがって、出力レイヤーに2つのノードがある場合は、p(x1),p(x2)およびx1 + x2 = Xのようになります。したがって、出力ノードが1つだけの場合、常に1.0（100％）になります。そのため、ランダムな予測に近いです（正直なところ、評価セットのカテゴリ分布に近いでしょう）。

sigmoidまたはreluなどの別の有効化方法に変更してください。

出典

2016-06-01 18:01:56

これはもう重要ではないかもしれませんが、レガシーでクリアな理由から、ソフトマックスは確率を返しませんが、出力層のすべてのノードの出力に1が加算されます（確率でそうです）。 – TheLaurens

あなたの説明のためにありがとう@ TheLaurens！ –

Binary_crossentropyとCategorical_crossentropyの混同

答えて

関連する問題