グリッドワールドでは、最初のポリシーに従ったアクションを、利用可能なアクション間の離散分布として開始します。私は各状態で4つの行動(北、南、東、西)を持っていると言うと、今私は各状態で50%の時間、私はアクション "北"を選択することにします。 30%の時間、私はアクション「南」を選択します。 10%時間アクション "東"と残りの10%アクション "西"。最適な方針にどのような影響を及ぼすでしょうか。もし私が行動の中で一様なランダム分布を選んだならば。私は、より頻繁に行動を探索することは、その状態と行動のペアのq値が速く収束し、より本物になることを可能にすると思います。しかし、もし私が行動を探るならば、そのq値はもっと大きくなるでしょう。私が正しいかどうか教えてください。は、学習エージェントが離散分布を学習できるようにする
0
A
答えて
3
あなたの流通があなたの世界のどの州にも行くことができるなら、あなたのエピソードの数が無限に近づくにつれて何の効果もありません。つまり、あなたがあなたの行動を描く確率分布にかかわらず、正確に(最適な方針が1つしかないと仮定して)同じ最適な方針を得るでしょう。
もちろんこれは理論的には当てはまりますが、実際には確率分布を変える別の副作用に気付くかもしれません。
がまたはが右と選択されていることを前提としているとします。目標が常に左側にあり、アクションを選択する確率が99%である場合、最適なポリシーは非常に迅速に取得されます。 を選択する確率がの場合、最適なポリシーは非常にゆっくりと取得されます。いずれにしても、十分なエピソードで、最適なポリシーを取得します。
同じことが、エピソード中に確率分布が変化する可能性のあるe-greedy方式にも当てはまります。
関連する問題
- 1. テスト学習曲線がフラットになる学習曲線(高バイアス/高分散)
- 2. 学習:デザインパターンを学習する前にTDDを学ぶべきですか?
- 3. scikit離散化カテゴリカル数値データを学習する
- 4. Node.js学習ガイドまたは学習プラン
- 5. TensorFlowエスティメーターでの学習/再学習
- 6. 深い学習と機械学習
- 7. Pythonの散布方法の説明(機械学習用)
- 8. 多くの離散的な機能を持つ学習データセット
- 9. は学習リンクリスト
- 10. api.aiエージェントを動的に学習する方法は?
- 11. 機械学習で学習曲線とは何ですか?
- 12. 機械学習 - 分類アルゴリズム
- 13. 機械学習分類アンサンブル
- 14. 機械学習分類データセット
- 15. "機械学習アルゴリズムは確率分布を学ぶ"というフレーズはどういう意味ですか?
- 16. 教師あり学習、(ii)教師なし学習、(iii)補強学習
- 17. 高いバイアスまたは分散? - SVMとweired学習曲線
- 18. 機械学習:離散データと連続データを一緒に扱う方法
- 19. 分散テンソルフロー学習でパラメータサーバを使用する理由は何ですか?
- 20. Azure Machineの学習能力を向上させる学習スペース
- 21. エンティティフレームワークの学習
- 22. グラフィカルレイアウトアルゴリズムの学習
- 23. マルチタスク学習
- 24. NativeScript学習ロードマップ?
- 25. sklearnパーセプトロン学習
- 26. 学習課題[]
- 27. 学習TypeScript - キャスティングタイプ
- 28. 学習Javascriptと
- 29. 学習Angularjs 2
- 30. 学習アーラン
これは、利用可能なアクションの中で一様ランダム分布を使用してアクションを実行することが私たちの目標であることを常に意味することを意味します。なぜなら、反復回数の平均値(無限に近づいているエピソードの最小値と最小値の間の平均値)で常に最適な方針を見つけるからです。私が目標状態に関する特別な情報を持っていない限り、配布後の行動をとることは特別な利点はありません。あなたが言ったように、 "目標は常に左にある"。 – Prabir
私は、一様ランダム分布を使うことは常に*安全であると言っていることを恥ずかしく思っています。その配布に従っている間にすべての状態に入ることができる限り、配布は安全です。特定のディストリビューションは、環境に応じて収束が速くなるという利点があります。これは環境についてのさらなる知識がなくても当てはまるかもしれませんが、実験によってのみ見つけられます。 – Andnp