41

グラデーションデセントが何をするのか分かります。基本的には、曲線をゆっくりと下降させることによって局所最適解に向かって移動しようとします。私は、計画勾配降下とニュートン法の実際の違いは何かを理解しようとしていますか?Gradient DescentとNewton's Gradient Descentの違いは何ですか?

ウィキペディアから、この短い行「ニュートンの方法は、より直接的なルートをとるために曲率情報を使用しています。これは直感的にはどういう意味ですか?

+2

曲率は、ニュートンの方法がfuctionの2次導関数をどのように使用するかに関係します。勾配降下は、通常は一次である。 – akk

+1

この講義を最初から最後までご覧ください:https://www.youtube.com/watch?v=sTCtkkqrY8A&index=15&list=PL3940DD956CDF0622 –

答えて

49

極小(または最大)xでは、目的関数fの派生は消えます:f'(x) = 0(十分な平滑度がf)。

勾配降下は、の最初の派生物からの情報を使用して、このような最小値を見つけようとします。現在のポイントからの最急降下に従います。これは休息になるまで(慣性を無視して)、ボールをfのグラフの下に転がすようなものです。

ニュートン法は、線形関数gf'を近似した後(これはニュートンの根検出法と呼ばれている)明示的にその関数の根を解くことによってf'(x) = 0を満足する点xを見つけようとします。 gのルートは必ずしもf'のルートではありませんが、多くの状況では良い推測です(Wikipedia article on Newton's method for root findingには収束基準に関する詳細があります)。 f'と近似しているが、ニュートンの方法はf''(曲率はf)を使用する。これは、それがfの滑らかさに対するより高い要求を有す​​ることを意味するが、それは(より多くの情報を使用することにより)しばしばより速く収束することを意味する。

+0

私は常に「最急勾配降下'。どういう意味ですか?それは 'f '(x)'の最も負の数ですか? –

+0

@Chowza:ドメインが多次元(例: 'f'が2D点を実数に写像するならば、任意の点における' f'の勾配はスカラー数ではなくベクトルです。その理由は、その時点での「急峻さ」は、あなたが探している方向に依存します。山頂に立っているようです。北に向いていると、山は非常に急に落ちるかもしれませんが、それほど急ではないかもしれない。したがって、最も急峻な降下を選択することは、ターゲット関数の最大の変化を引き起こす方向を選択することを意味します。 –

4

編集2017:元のリンクが死んでいる - が、バックマシンはまだそれを得た方法:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf

このパワーポイントの主なアイデアは、私はこのヘルプを願っています単にhttp://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf

を説明します。 )

+0

リンクがダウンしています – CpCd0y

+0

@ CpCd0yリンクが更新されました:) – MimiEAM

8

簡単に言えば、グラデーションを下ろすだけで、ゼロがあると思う場所に向かって小さなステップを踏み出し、再計算します。ニュートンの方法、あなたはそこまで行く。

+0

非二次関数の「すべての方法」は本当ですか? – bers

+1

はい、非二次関数の場合は、一次導関数を直線で近似しています。これはちょっとした波ですが、私は直感には問題ないと思います。 – dashnick

+0

さて、私は同意します。 「どこに*ゼロがあると思うか」までのすべての道は間違いなく正しいです。 – bers

関連する問題