強化学習と動的プログラミング

1

ダイナミックプログラミングは、多くのアルゴリズムを網羅した傘です。 Qラーニングは特定のアルゴリズムです。だから、それは同じではありません。また

、あなたはまだありません同じバリュー反復またはポリシー繰り返し、のようにダイナミックプログラミングを意味します。これらのアルゴリズムは、 "計画"の方法です。あなたは彼らに移行と報酬機能を与える必要があり、彼らは繰り返し値機能と最適なポリシーを計算します。

Qラーニングはモデルフリー強化学習方法です。このモデルは「モデルフリー」であり、機械学習モデルなどを使用しているわけではありませんが、必要がないためが使用され、という環境モデルがMDP最適な方針を得る。また、「モデルベース」のメソッドもあります。ダイナミックプログラミングの方法と異なり、これらは単にモデルを使用するのではなく、モデルの学習に基づいています。また、モデルのないメソッドとは異なり、値を推定した後にサンプルを捨てないで、パフォーマンスを向上させるためにトランジションと報酬関数を再構築しようとします。

モデルベースの方法は、モデルフリーメソッド（Q-学習）によって要求されるよりも、サンプルの少ない量と同じ良い結果を得るためにモデルフリーと計画アルゴリズムを組み合わせて、ダイナミックプログラミングのようなモデルを必要とせずメソッド（値/ポリシー反復）。

出典

2017-11-16 15:48:32 mimoralea

-1

たとえば、AlphaGoのようなオフライン設定でQラーニングを使用する場合は、動的プログラミングと同じです。違いは、オンラインセットアップでも使用できることです。

出典

2016-08-17 05:49:47

+0

いいえこれは同等ではありません。これらの2つの方法を比較することはできません。動的プログラミングは、多くのアルゴリズムで使用される非常に一般的なアルゴリズムパターンです。あなたのアルゴリズムは動的プログラミング戦略を利用するかもしれませんが、確かに**動的プログラミングではありません。 – cel

+0

@cel、あなたは文脈を考慮する必要があります。 RLに関しては、DPが値またはポリシー反復を参照すると仮定することは安全です。 –

6

サットン&バート氏の著書（Reinforcement Learning: An Introduction, chapter 4）

から用語動的計画法（DP）は、として環境の完璧なモデルを与え、最適なポリシーを計算するために使用することができるアルゴリズムの集合を指しマルコフ決定プロセス（MDP）。古典的なDP アルゴリズムは、完璧なモデルの仮定のために、そしての計算コストのために、の両方の強化学習では有益ではありませんが、理論的には依然として重要です。

したがって、同じ動作原理（平板強化学習/動的計画法を用いて、またはRL/DPを近似のいずれか）の両方の株が、古典的なDPと古典RLとの間の彼らの主な違いは、最初のモデルが既知であると仮定することです。これは基本的に遷移確率（状態sから状態s 'への変化の確率aを示す）と期待される即時報酬関数を知ることを意味する。

逆に、RLメソッドは、（アルゴリズムに応じて）オンラインまたはオフラインで収集された一連のサンプルにアクセスする必要があります。

もちろん、RLとDPの間に配置できるハイブリッドメソッドがあります。たとえば、サンプルからモデルを学習し、そのモデルを学習プロセスで使用する方法があります。

注：動的プログラミングという用語は、RLに関連する一連の数学的最適化技術に加えて、いくつかのコメントで指摘されているように、「一般的なアルゴリズムパターン」を参照するためにも使用されます。どちらの場合も、ファンダメントは同じですが、コンテキストに応じて異なる意味を持つ場合があります。

出典

2016-08-17 08:24:02

強化学習と動的プログラミング

答えて

関連する問題