1
OpenAIベースラインコードDQNの場合、ターゲットグラフの構築中にターゲットネットワークのq値にtf.stop_gradient
が使用され、ターゲットq値が損失の最小化に寄与しないようにします。 minimize
を呼び出すときOpenAIベースライン:なぜ `tf.stop_gradient`を同時に使用し、` var_list`を指定するのですか?
しかし、var_list
をqネットワークに該当する範囲でのみtf.Variable
として指定されている(ライン213)は、標的Q網下スコープを持つ変数を除いて、最適化されます。 (223行目)
なぜ彼らが両方を行うのか分かりません。 2つのアプローチは同じ結果を達成するようです。
私は他のスタック交換サイトhttps://datascience.stackexchange.comを提案しています。 – arboreal84