強化学習の初心者です。最近、私はOpenAIジムのCartPole-v0を解決するためにDeep Q Networkを訓練しようとしています。ここで、解決は100以上の連続したエピソードで少なくとも195.0の平均得点を達成することを意味します。Deep Qです。カートポールの課題を解決するのに適していますか?
私は2層のニューラルネットワークを使用しています.1百万回の経験、イプシロン貪欲ポリシー、RMSPropオプティマイザ、フーバーロス関数を含むメモリでの経験を体験しています。
この設定では、タスクを解決するには数千回のエピソード(> 30k)が必要です。学習は時には非常に不安定です。ですからDeep Q Networksがこのようなタスクを習得するのにこれを長く振り回すのは普通ですか?他の選択肢(または私のDQNの改善)がよりよい結果をもたらすことができるか?
:
開始するには良い場所。このチュートリアルでは、OpenAI CartPole問題を使用しています。あなたのようなニューラルネットワークを使用しています:https://pythonprogramming.net/openai-cartpole-neural-network-example-machine-learning-tutorial/ –
ありがとう、@ PabloEM。それは私にいくつかの新しい洞察を与えている。 –
素晴らしい。一般的に、私はDeep Q LearningがCartpoleタスクを解決するために何となく不慣れだと思います。 –