1

深い補強アルゴリズムがどのように機能し、どのような環境で自分自身を鍛えるために必要な時間を知りたい。 私は、環境の非常に単純な例を考え出しました。単純なゲームのための深い強化学習パラメータとトレーニング時間

0から100までの整数を保持するカウンタがあります。 は100をカウントすることを目標としています。

値が+1または-1の1つのパラメータdirectionがあります。 単に移動する方向を示します。

出力ニューラルネットワークはこの方向を入力とし、可能な2つの動作を出力とします。

  1. 変更方向
  2. 第一のアクションは、単に(+1 => -1または-1 => + 1)の方向を反転します

方向を変更しないでください。第2の行動は方向をそのまま維持する。

私はバックエンドにはPythonを、フロントエンドにはjavascriptを使用しています。 時間がかかるようですが、それでもかなりランダムです。私は4層のパーセプトロンを使いました。 0.001の訓練率。コードは100のバッチで学習します。コードは人工知能のUdemyチュートリアルであり、正しく動作しています。

私の質問は、完成と各州の報酬はどうなるべきですか?そのような簡単な例を訓練するためにどれくらいの時間が必要ですか?

答えて

1

強化では、下線の報酬関数を学習することが、ゲームを定義するものです。異なる報酬関数は、異なる最適戦略を用いて異なるゲームにつながる。

  1. だけにして100に達したとのために+1を付け:

    あなたのケースでは、いくつかの異なる可能性があります。

  2. 100に達すると+1になり、100には+1されません。
  3. 降りると+1します。

3番目のケースはあまりにも容易であり、長期間のプレーニングは含まれません。最初のケースでは、エージェントは誤って100に達したときに初めて学習を開始し、それが良いと判断します。しかし、最初のケースでは、一度上がることを学ぶと、そこに行くのにどれくらい時間がかかっても問題ありません。 2番目は、できるだけ早くそこに到達する必要がある場所で最も興味深いものです。

使用する報酬について正解はありませんが、最終的にあなたが選んだ報酬はあなたがプレイしているゲームを定義します。

注:この問題の 4層パーセプトロンビッグタイムオーバーキルです。 1つのレイヤーで十分です(この問題は非常に簡単です)。あなたはOpenAI's gymで強化学習環境を試しましたか?非常にお勧めします、彼らはすべての "古典的"強化学習の問題を抱えています。

+0

OpenAIのジムについてご提案いただきありがとうございます。それは大きな助けとなった。 –

関連する問題