0
ディープ・ディトリティック・ポリシー・グラジエントによるオフ・ポリシー・トレーニングの最初のラウンドを処理する良い方法は何ですか?初期化されていない目標評定者
私の問題は次のとおりです。Xavier Initializationとすべての重みをバイアス値に初期化します。しかし、批評家の損失を計算すると、Q_target
とQ_eval
の差が非常に大きいので、私は無限のMSEを得ています。これを非常に大きな値にクリップするのは悪い考えですか?
Q_target_i = r_i + discount * Q_target(i+1)
critic_loss = MSE(Q_target_i, Q_eval_i)