OpenAIベースライン：なぜ `tf.stop_gradient`を同時に使用し、` var_list`を指定するのですか？

OpenAIベースラインコードDQNの場合、ターゲットグラフの構築中にターゲットネットワークのq値にtf.stop_gradientが使用され、ターゲットq値が損失の最小化に寄与しないようにします。 minimizeを呼び出すときOpenAIベースライン：なぜ `tf.stop_gradient`を同時に使用し、` var_list`を指定するのですか？

しかし、var_listをqネットワークに該当する範囲でのみtf.Variableとして指定されている（ライン213）は、標的Q網下スコープを持つ変数を除いて、最適化されます。（223行目）

なぜ彼らが両方を行うのか分かりません。 2つのアプローチは同じ結果を達成するようです。

2017-05-30 Quan Vuong

私は他のスタック交換サイトhttps://datascience.stackexchange.comを提案しています。 – arboreal84

これは冗長です。 IMOコードの方が読み易くなります。グラジエントがその式を通らず、どの変数が影響を受けるのか正確に分かることが分かります。

実際に同等の効果を達成するには十分である。

2017-05-31 08:27:36 siemanko

答えて