2
層L2_1と層L2から層L1に同時に入力するグラデーションがあります。1/sqrt(2)
でL1に入る前に、グラデーション(L2_1 + L2_2)
を再スケールする必要があります。これどうやってするの?テンソルフロー次のレイヤーに伝播する前に、どのように勾配を再調整できますか?
マイ・ネットワークは、次のようになります。
L2_1
/ \
input -> L0 - L1 L_final
\ /
L2_2
' L2_1_t = 1/SQRT(2)* L2_1 L2_1_y = L2_1_t + tf.stop_gradientから勾配交換トリックを使用することができます'L2_2_t = 1/sqrt(2)* L2_2 L2_2_y = L2_2_t + tf.stop_gradient(L2_2 - L2_2_t)' モデル構築コードでは、 'L2_1'の代わりに' 'L2_1_y''と' 'L2_2_y''を使用します。 L2_2(次のレイヤーへの入力として)、これは正しいのですか? – userqwerty1
一見したように見えますが、試してみるとこのQを更新してください –