10

上記の方法の両方は、より良い予測の近さのためにより良いスコアを提供するが、依然としてクロスエントロピーが好ましい。それはすべてのケースにあるのでしょうか、あるいはMSEよりクロスエントロピーを好むいくつかの特殊なシナリオがありますか?平均二乗誤差が回帰ための最良の選択肢の一つである一方、平均二乗誤差よりもクロスエントロピー法が好ましい理由は何ですか?どのような場合にこれは成立しませんか?

+0

はhttp://heliosphan.org/cross-entropy.htmlとhttp://heliosphan.org/generative-models.htmlを参照してください。 – redcalx

答えて

17

クロスエントロピーは、分類のために好まれます。これは、問題そのもののステートメントから直接得られます。つまり、非常に特定の出力値のセットで作業する分類では、MSEはひどく定義されています(この種の知識がないため、互換性のない方法でエラーが発生します)。より良い、あなたが気づく

  1. クロスエントロピー
  2. ロジスティック回帰(バイナリクロスエントロピー)
  3. 線形回帰(MSE)

間の関係を追跡し、理解することが良いです現象を理解するために、従属変数についての異なる仮定を用いて、どちらも最尤推定量とみなすことができます。

+1

"従属変数についての仮定"についてもっと詳しく教えてください。 – yuefengz

+0

@Fake - 別の答えでDucが指摘したように、ロジスティック回帰は、従属変数の二項分布(またはクロスエントロピーとソフトマックスの一般化多項式)を仮定しますが、線形回帰は、変数の一次関数固定平均分散を有する0平均ガウス雑音からのIIDサンプリングされた雑音。 – lejlot

9

確率と分布の観点からコスト関数を導き出すと、二項分布を仮定したときに正規分布とクロスエントロピーに従うと仮定すると、MSEが発生することがわかります。それは暗黙のうちにMSEを使用するときに回帰(推定)を行い、CEを使用するときに分類を実行することを意味します。少し助けてくれることを願っています。

2

たとえば、ロジスティック回帰を行う場合は、シグモイド関数と勾配降下を使用して問題を解決します。これを実行してコスト関数にMSEを使用すると、極小値を得られる非凸型の問題が発生します。クロスエントロピーを使用すると、最適な解を見つけることができます。

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

ここで興味深い分析もあります: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/

関連する問題