2つのRLテクニックの報酬はどのように働くのですか?つまり、彼らは政策と評価を改善しますが、報酬は改善しません。 最初からどのように推測する必要がありますか?QラーニングとTD(ラムダ)の報酬
答えて
あなたは報酬を推測する必要はありません。報酬は環境からのフィードバックであり、報酬は環境のパラメータです。アルゴリズムは、エージェントがフィードバック、状態空間、および行動空間のみを観測できるという条件で動作します。
QラーニングとTDの重要なアイデアは、ベルマンオペレータの固定小数点を、長期間の報酬期待の騒がしい評価を使用して近似する非同期確率的近似です。
たとえば、期待ガウス分布を推定したい場合、それをサンプリングして平均化することができます。
補強学習は、AIエージェントが操作している世界についての情報がないという問題のためのものです。補強学習は、各状態でポリシー/最適なアクションを実行するだけでなく、結果がどのような状態になるかについての知識はありません)、この新しい環境のパラメータを学習します。これらはモデルベースの強化学習アルゴリズムです
今Q学習と時間差学習は、モデルのない強化学習アルゴリズムです。つまり、AIエージェントはモデルベースのAlgoと同じことを行いますが、動作中の世界のモデル(遷移確率など)を学習する必要はありません。多くの反復を通じて、各状態のマッピングが行われますその状態で実行されるべき最適の動作に至る。
あなたの質問には、別の州の報酬を推測する必要はありません。エージェントが環境に初めて参加したときは、エージェントが存在する状態から実行されるランダムなアクションを選択してシミュレータに渡すだけです。シミュレータは、遷移関数に基づいて、その状態アクション対の結果状態を返し、その状態にあることに対する報酬も返す。
シミュレータは、現実世界の自然に似ています。例えば、あなたが世界で馴染みのないものを見つけたら、それに触れるような何らかのアクションを実行します。ホットなオブジェクトであることが判明したら、自然は痛みの形で報酬を与えます。そのアクションを試してください。これをプログラミングする際には、シミュレータの動作が環境を学習しようとしているAIエージェントには見えないことに注意することが重要です。
エージェントはこの報酬に応じて、Q値(Qラーニングの場合)またはユーティリティ値(TDラーニングの場合)をバックアップします。多くの反復で、これらのQ値は収束し、状態 - アクション・ペアのQ値に応じて、すべての状態に対して最適なアクションを選択することができます。
- 1. q-ラーニングの反復と報酬
- 2. ニューラルネットワーク近似Q関数による報酬関数
- 3. Qラーニングの値が高すぎる
- 4. AdMobのXamarinのサポートインタースティシャル報酬
- 5. xamarinアンドロイドの報酬ビデオ
- 6. 毎時報酬付きゲーム
- 7. Admob報酬ビデオ広告
- 8. オプラプランナーのペナルティの代わりに報酬
- 9. 報酬/達成システムのユーザーアクションのトラッキング
- 10. のAdMob報酬ビデオGADRewardBasedVideoAdDelegate未定義シンボル
- 11. 報酬ポイントの新しいフィールドMagento 1.9
- 12. 結果を表示Unity ADS報酬
- 13. Chartboostの報酬ビデオとiOSのMoPub調停の統合方法
- 14. 未知の環境でQラーニングがどのように機能しますか?
- 15. Swift Admob報酬ベースの動画広告の統合とテスト
- 16. アプリケーションフォームをインストールした後に報酬を与える方法報酬を与えられたビデオ - android
- 17. phpで友人refererredと報酬制度を行うには?
- 18. 確率的報酬ネットモデル(SRNモデル)とは何ですか?
- 19. ラーニング.prototype
- 20. BeautifulSoupは:アクセス情報は、TD
- 21. Qラーニングを使用するときにtheanoでニューラルネットワークのグラジエントを計算する方法
- 22. オーディエンスネットワークの報酬ビデオを表示しようとするとクラッシュする
- 23. *完全な初心者のためのコードプロジェクトの報酬
- 24. ローカルエリアの説明:ラーニング
- 25. アップルNFC対応の報酬のパスは、インド
- 26. PlaystoreにないアプリケーションのAdmob報酬のビデオ
- 27. 報酬を与えられたビデオアンドロイドスタジオのAdMob問題
- 28. 報酬を与えられたビデオ広告の再開方法
- 29. IronSource報酬動画の再読み込み
- 30. 再生学習の報酬機能DQNによる曲線フィーバーゲーム
[強化学習:QLearningとSarsaTDの違い?](http://stackoverflow.com/questions/6848828/reinforcement-learning-differences-between-qlearning-and-sarsatd) –