アクションマスキングはどのように実装されますか？

Actor Mimicは、アクションマスキング手順の実装について話しています。私は誰もがアイデアを持っています特定のゲームを遊んでいる間、私たちはそのゲームのためには有効ではありませんAMNアクション出力をマスクし、有効なアクションアクションマスキングはどのように実装されますか？

のサブセットのみを介してソフトマックスを取る

を引用しますこのアクションマスキングをTensorflowでどのように実装できるかについて具体的には、特定のアクションのサブセットに対してのみsoftmaxをどのように取るのでしょうか？

2016-11-27 Sahil

あなたは1と0を含む有効なテンソルを持っているとします。

is_valid = [1, 0, 1, ...]

、その後、あなたは有効なそれらの値の上にソフトマックスを取るしたいアクションテンソルを持っています。あなたは以下を行うことができます。

(tf.exp(actions) * is_valid)/(tf.reduce_sum(tf.exp(actions) * is_valid) + epsilon)

この場合IS_VALIDは、合計で無効な値をマスキングされます。私は数値安定性のために部門に小さなイプシロンを追加し、決してゼロで割ることはできません。

2016-11-27 12:27:50 chasep255

答えて