私はTensorflowでa3c implementationのオープンソースバージョンを使用していますが、これはatari 2600実験ではうまく動作します。しかし、私がoutlined in the paperのようにMujocoのネットワークを変更すると、ネットワークは何か意味のあることを学ぶことを拒否します。誰も、継続的なドメインの問題を持つa3cの仕事のオープンソースの実装を作ることができましたか?例えばmujoco?非同期効果の俳優批評家をMujoco実験で使用できる人はいますか?
答えて
私は振り子の連続的な行動をしており、うまくいきます。
まず、ニューラルネットワークを構築し、アクションを選択するための平均(mu)と標準偏差(sigma)を出力します。
連続動作の本質的な部分は、正規分布を含むことです。関数tensorflowが与える使用し、あなたがしたいアクションをサンプリングする場合
normal_dist = tf.contrib.distributions.Normal(mu, sigma)
log_prob = normal_dist.log_prob(action)
exp_v = log_prob * td_error
entropy = normal_dist.entropy() # encourage exploration
exp_v = tf.reduce_sum(0.01 * entropy + exp_v)
actor_loss = -exp_v
:
sampled_action = normal_dist.sample(1)
振子の完全なコードは、私の中に見つけることができるコードがあるので、私は次のようになり、tensorflowを使用していますGithub。 https://github.com/MorvanZhou/tutorials/blob/master/Reinforcement_learning_TUT/10_A3C/A3C_continuous_action.py
これは本当に適切な答えのようには見えません。外部サイトへのリンクはありません。本当の夏を思い出して、そしておそらくいくつかのコードスニペット。 – GhostCat
は、私はうまくいけば、これは私の靴の誰かを助け、長い時間のために、この上でハングアップした離散空間における
アドバンテージ俳優、評論家は簡単です:あなたの役者が予想よりも優れていた場合、確率を高めますその動きをする。それが悪化したら、それを減らしてください。
連続したスペースでも、どうやってこれを行いますか?あなたのポリシー機能が出力するベクトル全体があなたの動きです。あなたがポリシー上で、あなたが予想以上に優れている場合、「そのアクションをさらに出力してください」という言い方はありません。あなたが既にそのベクトルを正確に出力しているからです。
ここで、モルバンの答えが出てきます。単なる動作を出力するのではなく、各出力機能に対して平均と標準出力を出力します。アクションを選択するには、入力を渡して各出力フィーチャの平均/標準偏差を作成し、この正規分布から各フィーチャをサンプリングします。
もしうまくいくならば、ポリシーネットワークの重みを調整して平均/標準偏差を変更して、この動作を促してください。あなたがうまくいけば、あなたは逆のことをします。
- 1. TFSのデフォルトの批評家
- 2. 俳優ではない人から俳優にメッセージを送るのは悪い習慣ですか?
- 3. 同期アッカの俳優のベストプラクティス
- 4. PHP:サーバスクリプトの非同期効果を実現する方法
- 5. 私は俳優のリストを持っている俳優
- 6. 個人用ブックデータベースを作成する(sqliteを使用)デザイン批評を探しています
- 7. 非同期chrome.cookies.getAllの結果を使用
- 8. 同期フラスコ非同期を作る - 人々は「非同期」または「フラスコの非同期を作る」について話すときフラスコのインスタンスが
- 9. PHPは非同期的にソケットを使用できますか?
- 10. コード俳優俳優対ヘルパー?
- 11. 複数の俳優が俳優 - ゴールリストの同じ目標を共有するべきか
- 12. AkkaでPropsが俳優の創造にもたらす効果は?
- 13. WCF:非同期CTP:それは使用できますか?
- 14. Akka俳優の受信メソッド内で非同期呼び出しを処理する最良の方法
- 15. マルチインサートは非同期で使用する
- 16. コトルリンの俳優と俳優のコミュニケーション
- 17. オンライン実験でRoute53を効果的に使用するにはどうすればよいですか?
- 18. JavaScript:同期コードで非同期FileReaderを使用するには?
- 19. 「非同期キーワード非同期」関数を「非同期キーワード非同期」関数に変換できますか?
- 20. self.assertRaisesを非同期コンテキストマネージャとして使用できますか?
- 21. 同じ俳優の異なるディスパッチャ
- 22. React.jsのホバー効果でイメージを非同期でロードするには?
- 23. 可能:Includeプレイブックを非同期で実行できますか?
- 24. dbpedia sparqlで1人の俳優の主演映画を取得するには?
- 25. リクエストで非同期を使用する
- 26. 他の俳優と俳優を共有する
- 27. Akkaでは、別の俳優からのメッセージを偽装できますか?
- 28. 非同期メソッドでの非同期ライブラリメソッドの使用
- 29. omdbapi.com使用法:俳優と女優、私は必要なパラメータは?
- 30. AsyncHttpClientは非ブロッキング非同期HTTPコールを実行できますか?
こんにちは@Sahil、私はA3C連続制御の実装も探しています。私はDQNのビジュアル入力を使用して、https://cs.stanford.edu/people/karpathy/convnetjs/demo/rldemo.htmlと非常によく似たゲームをプレイするエージェントを訓練しようとしています。 DQNで2Dモーションゲームを試して成功したかどうか知りたいですか? –
私はあなたのコメントを理解するとは思わない。あなたはそれを言い換えることができますか? – Sahil