reinforcement-learning

0熱

1答えて

私はkeras-rl/examples/cem_cartpole.pyの例を見つけました。私は理解したいと思いますが、ドキュメントは見つかりません。ライン memory = EpisodeParameterMemory(limit=1000, window_length=1) は何をしますか？ limitとは何ですか、window_lengthとは何ですか？いずれかの/両方のパラメータを増加

1熱

1答えて

Tensorflow損失は、私は強化学習とAIをやっていると私は奇妙な結果を得ている

すでに低い、損失は次のように示しhttps://imgur.com/a/Twacm そして、それは訓練だが、各ゲームの後に、それはですランダムプレイヤーとの戦い、加重マトリックスを持つプレイヤーのプレイ後、上下に移動：基本的に私はオセロを学ぶことを学ぶ強化学習エージェントをやっています。 E-greedyを使用して、Tensorflow上のKerasを使用してリプレイと深いネットワークを体験して

0熱

1答えて

Proximal Policy Optimizationの状態に履歴が含まれていますか？

たとえば、タイムステップtのステートは、実際にtとt-1のステートで作成できますか？ S_t = [s_t, s_t-1] すなわちん近位ポリシーの最適化は、すでに状態履歴を組み込むか、それは州の暗黙の（またはどちらも）することができます。

0熱

1答えて

FrozenLake Q-Learningアップデートの問題

私はQ-Learningを学び、OpenAI GymのFrozenLake-v0問題でQ-learnerを構築しようとしています。問題は16状態と4つの可能なアクションしか持たないので、それはかなり簡単ですが、私のアルゴリズムがQテーブルを正しく更新していないようです。次は私のQ学習アルゴリズムである。そして、 import gym import numpy as np from gym i

0熱

1答えて

時間差学習を使う点は何ですか？

私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか？特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか？

0熱

1答えて

PyTorch Tensor.index_select（）の使用方法は？

現在、PyTorchを使用してREINFORCEアルゴリズムを実装しようとしています。私は報酬を割り引いた後に責任ある成果を集めることができるようにしたい。したがって、アクションのメモリが与えられた場合、インデックスのテンソルを作成し、Tensor.index_selectを使用しようとしますが、成功しません。誰も助けることができますか？ rH = np.array(rH) # discounte

0熱

2答えて

ユーティリティとは何ですか？

Q学習の一部として、目的は期待される効用を最大にすることです。私が知っている読書ウィキペディア： https://en.wikipedia.org/wiki/Q-learningは、以下の状況で期待効用を説明しますそれは最終的に与えられる行動価値関数を学習することで動作します与えられた状態で特定のアクションを取るの期待効用とその後最適なポリシーに従います。 Q-ラーニングの強みの1つは、とい

0熱

1答えて

深いQスコアはCartPoleのために9でスタックしました

私はtensorflowを使ってdeepQの実装を使ってCartPole-v0を解決していますが、出力は時々（全実行の40％）9に止まっています。 tf.set_random_seedでも、それでも出力が止まらないことは保証されません。これは私のコードです： from collections import deque import tensorflow as tf import numpy a

0熱

1答えて

オフポリシーの強化学習と経験的な再生でラムダを使用できますか？

DQNは、ANYポリシーに従うことによって収集された経験的データから最適なポリシーを学習するために、オフポリシーRLを使用する。専門家、以前の非最適政策などを観察した経験は、フォームのデータの集まりです：（S1、A1、R2、S2）ここでr2は受信実際の報酬でありますa1を実行した直後。経験は、フォームの教師付き学習の例を設定するために使用されていますネットINPUT：（S1、A1）、当期