学習者は訓練段階にあり、そこではエポックの束のためにQテーブルが更新されます。学習を強化する:Q学習の練習後にハイパーパラメータ(?)を無視する必要がありますか?
この段階では、Qテーブルはガンマ(割引率)、学習率(アルファ)で更新され、ランダムアクションレートでアクションが選択されます。
報酬が安定しているいくつかの時代の後、私はこの「トレーニングが完了しました」と呼ぶことにしましょう。その後、これらのパラメータ(ガンマ、学習率など)を無視しなければならないのですか?私が意味する
は、トレーニングの段階で、私はこのようなQ-テーブルからアクションを得た:
if rand_float < rar:
action = rand.randint(0, num_actions - 1)
else:
action = np.argmax(Q[s_prime_as_index])
しかし、訓練段階の後、私はからアクションを取得する必要がありますを意味し、rar
を削除する必要がありますこのようなQ-table?
action = np.argmax(self.Q[s_prime])
どの言語とライブラリを使用していますか?タグを追加します。 – user31264
私はライブラリを使用していません...自分でシステム全体を作りました – user3595632
これはstats.stackexchange.comまたはai.stackexchange.comの質問です。 – user31264