reinforcement-learning

    -2

    1答えて

    標準の7 * 6ボードを考えてみましょう。 Q-Learningアルゴリズムを適用したいとします。それを適用するには、すべての可能な状態とアクションのセットが必要です。 3 ^(7 * 6)= 150094635296999121が存在する可能性があります。これらを保存することは現実的ではないので、私は法的状態のみを検討しています。 すべての法的状態と行動に対してQ(s、a)を生成するにはどうすれ

    0

    1答えて

    Q-learningアルゴリズムでは、アクションの選択は、現在の状態とQ-matrixの値に依存します。私は、これらのQ値が探査段階でのみ更新されるのか、それとも開発段階でも変更されるのかどうかを知りたいと思います。

    1

    1答えて

    私は、Pybrainパッケージを使用して強化学習と交通光シミュレーションを組み合わせるプロジェクトに取り組んでいます。私はチュートリアルを読んで、EnvironmentとTaskという独自のサブクラスを実装しました。私は自分の状態を、連続した値を持つベクタにして、各レーンで待っている車の数、レーンあたりの合計待ち時間などの情報を含むことができるようにしたいので、コントローラーとしてActionVa

    1

    1答えて

    Actor Mimicは、アクションマスキング手順の実装について話しています。私は誰もがアイデアを持っています特定のゲームを遊んでいる間、私たちはそのゲームのためには有効ではありませんAMNアクション出力をマスクし、有効なアクション のサブセットのみを介してソフトマックスを取る を引用しますこのアクションマスキングをTensorflowでどのように実装できるかについて具体的には、特定のアクションの

    2

    1答えて

    深いQラーニングタスクの安定性を向上させる1つの方法は、ゆっくりと更新され、Q値目標の計算に使用されるネットワークの目標重量のセットを維持することです。その結果、学習手順の異なる時間に、順方向パスにおいて2つの異なる重みの組が使用される。 sess = tf.Session() input = tf.placeholder(tf.float32, shape=[None, 5]) weight

    0

    1答えて

    おはよう、 Qラーニングでは、エージェントは目標に達するまで行動します。このアルゴリズムは収束を得るまで何度も実行される。例えば、目標は時間シミュレーションの終了まで最大スループットを得ることです。シミュレーション時間は、n個の等しい期間Tに分割され、報酬は時間とともに変化する。したがって、エージェントは各期間の更新時に状態をn回更新します。この場合、nはステップ数または反復回数と見なされますか?

    0

    1答えて

    私は強化学習について勉強してきましたが、私が理解していないことは、Q値がどのように計算されたかです。ベルマン方程式Q(s,a) = r + γ*max(Q(s',a'))を使用しても、それは永遠に続かないでしょうか? Q(s',a')は1つのタイムステップのQ値をさらに必要とするので、それはちょうど繰り返されます。それはどうやって終了するのですか?

    1

    1答えて

    私の研究のケースでは問題があります。 私はgridworldモデルの強化学習に興味があります。 モデルは動きのために7x7フィールドの迷路です。 フィールドの迷路を考えてみましょう。上、下、左、右(N、E、S、W)の4つの方向があります。したがって、ほとんどのポリシーがあります。壁に衝突する際に与えられる即時の罰を使用するときには、多くを除外することができます。 さらに、抑止の原理を用いると、通常