uwenku
タグリスト
temporal-difference
0
熱
1
答えて
時間差学習を使う点は何ですか?
私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか? 特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?
reinforcement-learning
temporal-difference
2017-11-26
3
熱
1
答えて
強化学習で損失関数(MSVE)を実装する
私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDi
reinforcement-learning
pytorch
loss-function
temporal-difference
othello
2017-10-11
2
熱
1
答えて
関数近似を持たない勾配時間差ラムダ
GTD(λ)の各形式では、関数近似の形で、θと何らかの重みベクトルwを使用して定義しているようです。 勾配法の必要性は、線形関数近似器の収束特性から広く理解されていますが、重要度サンプリングにはGTDを使用したいと考えています。 GTDを関数近似なしで利用することはできますか?もしそうなら、更新方程式はどのように形式化されていますか?
machine-learning
reinforcement-learning
temporal-difference
2016-04-30
最新の質問
1.
Python - Scrapy - URLのリストを取得してクロールするクローラを作成する
2.
Perl LWP :: Simple :: get($ url)が一部のURLで動作しない
3.
GraphUserを 'com.facebook.android:facebook-android-sdk:4.27.0'で解決できません
4.
Office.initialize raise $ rootScope:infdig
5.
Swift:Spritekit Sceneのサイズを取得してSKNodeフルスクリーンを表示する方法は?
6.
文書をAtlasサーバーに書き込む際のC#MongoDB例外
7.
AJAX:request.status == 200 falseを返しますか? (ページに表示されないデータ)
8.
Dockerを使用してgcloudでFlaskを実行しているときにエラーが発生しました
9.
kv言語でプロパティをバインドする方法は?
10.
Node.js経由のエクスプレス -/