初期化されていない目標評定者

ディープ・ディトリティック・ポリシー・グラジエントによるオフ・ポリシー・トレーニングの最初のラウンドを処理する良い方法は何ですか？初期化されていない目標評定者

私の問題は次のとおりです。Xavier Initializationとすべての重みをバイアス値に初期化します。しかし、批評家の損失を計算すると、Q_targetとQ_evalの差が非常に大きいので、私は無限のMSEを得ています。これを非常に大きな値にクリップするのは悪い考えですか？

Q_target_i = r_i + discount * Q_target(i+1) 
critic_loss = MSE(Q_target_i, Q_eval_i)

これを回避するには、評価ネットワークをターゲットネットワークと同じにする必要があります。

2017-10-07 11:47:02 BadProgrammer

答えて