0

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82は、私はそれを理解するために多くの時間を費やす必要があり人気のある深いQ学習プログラム

のこの行を理解することはできません。

なぜtf.multiplyを使用するのですか?

この乗算演算をサポートする数学を見つけることができません。

+0

私はこの質問がhttps://stats.stackexchange.com/に適していると思います。 – PJvG

+0

@PJvGありがとうございます。 –

答えて

0

すべてのアクションにはQ_valueがあります。

アクション入力aはワンホットです。

この行は 'hot' Q_valueを選択することです。

関連する問題