私はテンソルフローで知覚プロセスをモデリングしています。私が興味を持っているセットアップでは、モデリングされたエージェントがリソースゲームをプレイしています。つまり、分類器がリソースに与えるラベルのみに依存することによってnリソースの1つを選択する必要があります。各リソースは、2つの実数の順序付けられたペアです。クラシファイアは最初の実数のみを表示しますが、ペイオフは2番目の実数に依存します。最初から2番目の機能があります。とにかく損失関数を計算するためにいくつかの入力を推論する
、理想的に私は次のように分類器を訓練したいと思います:各実行で
- を、分類器はn個リソースにラベルを与えます。
- エージェントは、所定のランク付け(例えば、A> B> C> D)で最も高いラベルに対応するリソースのペイオフを取得し、抽選の場合はランダムに取得する。
- 損失は、このようにして得られたペイオフとリソースセット内の最大ペイオフとの間の正規化された絶対差であるとみなされる。すなわち、(Payoff_max - ペイオフ)/ Payoff_max このため
仕事に、一つは損失を計算する前に、リソースごとに一回、推論のn回実行する必要があります。テンソルフローでこれを行う方法はありますか?もし私が間違った方法で問題に取り組んでいるのであれば、それも自由に言えます。