2016-08-15 9 views
0

MNIST for LM Beginnersチュートリアルで私は間違いがあると信じています。私はこの部分が正確ではないと思う:MNIST for ML初心者チュートリアルミス

ランダムなデータの小さなバッチを使用することは、確率的訓練 - この場合、確率的勾配降下と呼ばれます。

確率的勾配降下法は、各トレーニング例(http://sebastianruder.com/optimizing-gradient-descent/index.html#gradientdescentvariants)のパラメータを更新するためのものであり、100のサイズのチュートリアルバッチで代わりにミニバッチ勾配降下であろう私は信じている、使用されています。

私は間違っている可能性がありますが、これを変更しないでください。

+0

ニューラルネットワークトレーニングでは、SGDは通常、ミニバッチによる最適化を指します –

答えて

0

確率的勾配降下(SGD)は、Wikipedia(https://en.wikipedia.org/wiki/Stochastic_gradient_descent)とSebastian Ruderの調査の単一のデータサンプルで勾配降下と呼ばれています。しかし、ミニバッチ勾配降下の用語を使用することは、機械学習者の間では非常に一般的になっています。

確率的勾配降下を使用する場合、データの変動に応じて、単一のデータサンプルを使用して勾配によって勾配を合理的に近似することができます。小さいバッチサイズのミニバッチグラジエントディセントを使用すると(100は小さなバッチサイズの問題かもしれません)、個々のバッチに依存しますが、通常、この依存関係は単一のサンプルよりも小さくなります(ここで平均して少なくとも1ビット)。

したがって、完全なデータセットの平均値を中心に変動するため、グラディエント自体(またはこの観点から見た場合の更新ルール)は確率的変数です。したがって、多くの人々は、ミニバッチ勾配降下および確率勾配降下を同義語として使用する。