2017-05-30 1 views
1

OpenAIベースラインコードDQNの場合、ターゲットグラフの構築中にターゲットネットワークのq値にtf.stop_gradientが使用され、ターゲットq値が損失の最小化に寄与しないようにします。 minimizeを呼び出すときOpenAIベースライン:なぜ `tf.stop_gradient`を同時に使用し、` var_list`を指定するのですか?

しかし、var_listをqネットワークに該当する範囲でのみtf.Variableとして指定されている(ライン213)は、標的Q網下スコープを持つ変数を除いて、最適化されます。 (223行目)

なぜ彼らが両方を行うのか分かりません。 2つのアプローチは同じ結果を達成するようです。

+1

私は他のスタック交換サイトhttps://datascience.stackexchange.comを提案しています。 – arboreal84

答えて

1

これは冗長です。 IMOコードの方が読み易くなります。グラジエントがその式を通らず、どの変数が影響を受けるのか正確に分かることが分かります。

実際に同等の効果を達成するには十分である。

関連する問題