深い補強アルゴリズムがどのように機能し、どのような環境で自分自身を鍛えるために必要な時間を知りたい。 私は、環境の非常に単純な例を考え出しました。単純なゲームのための深い強化学習パラメータとトレーニング時間
0から100までの整数を保持するカウンタがあります。 は100をカウントすることを目標としています。
値が+1または-1の1つのパラメータdirection
があります。 単に移動する方向を示します。
出力ニューラルネットワークはこの方向を入力とし、可能な2つの動作を出力とします。
- 変更方向
- 第一のアクションは、単に(+1 => -1または-1 => + 1)の方向を反転します
私はバックエンドにはPythonを、フロントエンドにはjavascriptを使用しています。 時間がかかるようですが、それでもかなりランダムです。私は4層のパーセプトロンを使いました。 0.001の訓練率。コードは100のバッチで学習します。コードは人工知能のUdemyチュートリアルであり、正しく動作しています。
私の質問は、完成と各州の報酬はどうなるべきですか?そのような簡単な例を訓練するためにどれくらいの時間が必要ですか?
OpenAIのジムについてご提案いただきありがとうございます。それは大きな助けとなった。 –