グラデーションデセントが何をするのか分かります。基本的には、曲線をゆっくりと下降させることによって局所最適解に向かって移動しようとします。私は、計画勾配降下とニュートン法の実際の違いは何かを理解しようとしていますか?Gradient DescentとNewton's Gradient Descentの違いは何ですか?
ウィキペディアから、この短い行「ニュートンの方法は、より直接的なルートをとるために曲率情報を使用しています。これは直感的にはどういう意味ですか?
グラデーションデセントが何をするのか分かります。基本的には、曲線をゆっくりと下降させることによって局所最適解に向かって移動しようとします。私は、計画勾配降下とニュートン法の実際の違いは何かを理解しようとしていますか?Gradient DescentとNewton's Gradient Descentの違いは何ですか?
ウィキペディアから、この短い行「ニュートンの方法は、より直接的なルートをとるために曲率情報を使用しています。これは直感的にはどういう意味ですか?
極小(または最大)x
では、目的関数f
の派生は消えます:f'(x) = 0
(十分な平滑度がf
)。
勾配降下は、の最初の派生物からの情報を使用して、このような最小値を見つけようとします。現在のポイントからの最急降下に従います。これは休息になるまで(慣性を無視して)、ボールをf
のグラフの下に転がすようなものです。
ニュートン法は、線形関数g
とf'
を近似した後(これはニュートンの根検出法と呼ばれている)明示的にその関数の根を解くことによってf'(x) = 0
を満足する点x
を見つけようとします。 g
のルートは必ずしもf'
のルートではありませんが、多くの状況では良い推測です(Wikipedia article on Newton's method for root findingには収束基準に関する詳細があります)。 f'
と近似しているが、ニュートンの方法はf''
(曲率はf
)を使用する。これは、それがf
の滑らかさに対するより高い要求を有することを意味するが、それは(より多くの情報を使用することにより)しばしばより速く収束することを意味する。
私は常に「最急勾配降下'。どういう意味ですか?それは 'f '(x)'の最も負の数ですか? –
@Chowza:ドメインが多次元(例: 'f'が2D点を実数に写像するならば、任意の点における' f'の勾配はスカラー数ではなくベクトルです。その理由は、その時点での「急峻さ」は、あなたが探している方向に依存します。山頂に立っているようです。北に向いていると、山は非常に急に落ちるかもしれませんが、それほど急ではないかもしれない。したがって、最も急峻な降下を選択することは、ターゲット関数の最大の変化を引き起こす方向を選択することを意味します。 –
編集2017:元のリンクが死んでいる - が、バックマシンはまだそれを得た方法:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
このパワーポイントの主なアイデアは、私はこのヘルプを願っています単にhttp://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
を説明します。 )
曲率は、ニュートンの方法がfuctionの2次導関数をどのように使用するかに関係します。勾配降下は、通常は一次である。 – akk
この講義を最初から最後までご覧ください:https://www.youtube.com/watch?v=sTCtkkqrY8A&index=15&list=PL3940DD956CDF0622 –