1

強化学習の初心者です。最近、私はOpenAIジムのCartPole-v0を解決するためにDeep Q Networkを訓練しようとしています。ここで、解決は100以上の連続したエピソードで少なくとも195.0の平均得点を達成することを意味します。Deep Qです。カートポールの課題を解決するのに適していますか?

私は2層のニューラルネットワークを使用しています.1百万回の経験、イプシロン貪欲ポリシー、RMSPropオプティマイザ、フーバーロス関数を含むメモリでの経験を体験しています。

この設定では、タスクを解決するには数千回のエピソード(> 30k)が必要です。学習は時には非常に不安定です。ですからDeep Q Networksがこのようなタスクを習得するのにこれを長く振り回すのは普通ですか?他の選択肢(または私のDQNの改善)がよりよい結果をもたらすことができるか?

+0

開始するには良い場所。このチュートリアルでは、OpenAI CartPole問題を使用しています。あなたのようなニューラルネットワークを使用しています:https://pythonprogramming.net/openai-cartpole-neural-network-example-machine-learning-tutorial/ –

+0

ありがとう、@ PabloEM。それは私にいくつかの新しい洞察を与えている。 –

+1

素晴らしい。一般的に、私はDeep Q LearningがCartpoleタスクを解決するために何となく不慣れだと思います。 –

答えて

1

私のDQNの他の選択肢(または改善点)は、より良い結果をもたらす可能性がありますか?

私の経験では、ポリシーグラジエントはカートポールでうまく動作します。また、彼らはかなり簡単に実装することができます(あなたが細めの場合、政策勾配はほぼのように見えます)。あなたはおそらくあなたの目的のために役立つことができるチュートリアルを見つけることができます。ここhttp://kvfrans.com/simple-algoritms-for-solving-cartpole/

関連する問題