2017-10-05 5 views
0

ディープ・ディトリティック・ポリシー・グラジエントによるオフ・ポリシー・トレーニングの最初のラウンドを処理する良い方法は何ですか?初期化されていない目標評定者

私の問題は次のとおりです。Xavier Initializationとすべての重みをバイアス値に初期化します。しかし、批評家の損失を計算すると、Q_targetQ_evalの差が非常に大きいので、私は無限のMSEを得ています。これを非常に大きな値にクリップするのは悪い考えですか?

Q_target_i = r_i + discount * Q_target(i+1) 
critic_loss = MSE(Q_target_i, Q_eval_i) 

答えて

0

これを回避するには、評価ネットワークをターゲットネットワークと同じにする必要があります。

関連する問題