先週私は推奨システムの代替ソリューションとしてMDPを提案する論文を読んだ。 この論文の中心は、MDP、すなわち州、行動、遷移確率、報酬関数などを含む。マルコフ決定プロセス:異なる状態につながる同じアクション
シンプルさを単一ユーザシステムと仮定すると、状態はkタプル(x1, x2, .. , xk)
のように見えます。ここで、最後の要素xkは、ユーザが購入した最後の項目を表します。 たとえば、現在の状態が(x1, x2, x3)
であるとします。つまり、x1を購入した後、x2、x3を購入したことを意味します。今すぐx4を購入すると、新しい状態は(x2, x3, x4)
になります。
ここでは、これらの状態遷移はアクションによってトリガされ、アクションは「アイテムx_iをユーザに推薦する」ことを示しています。問題はそのようなアクションが複数の状態につながる可能性があることです。例えば
私たちの現在の状態が(x1, x2, x3)
あり、そしてアクションは、ユーザーに「X4をお勧めします」であれば、可能な結果は、2つのうちいずれかである可能性があります
ユーザーがX4の勧告、および新しい状態を受け入れユーザーがX4の勧告を無視し(x2, x3, x4)
になります(つまり、何か他のものを買う)と新しい状態が(x2, x3, xi)
どこXI!= X4
私の質問があり、MDPは、実際に二つ以上の異なるがトリガー同じアクションをサポートしていますどのような状態になります状態?
更新。 「アイテムx_iの推薦を得て、それを拒否し、アイテムx_iの推薦を得て、それを拒否する」というだけで、アクションは「アイテムx_iの推薦を受け取り、それを拒否する」として策定されるべきだと考える。
返信ありがとうございます。この論文では、状態がどのようなサイズのkタプルであってもよいので、k = 1も可能であると述べています。私はk値選択の長所/短所について議論する部分をまだ読んでいないので、私はそれについて論争することはできません:)私が興味を持っているのは、いくつかの異なる州への移行に同じアクションを使う可能性です。私もwikiを読んだことがありますが、それについては何もありません – mangusta
アクション価値関数 'Q(s、a)'を定義するQ-learningの概念もあります。すべての状態アクション対を報酬値に写像するので、状態 's'で利用可能なすべてのアクション' a'の 'Q(s、a)'値を比較することによって、状態 's 'にある間に最良の行動を選択することができます。しかし、同じアクションが異なる州につながる場合、Q(s、a)はすべてのトランジションで同じになりますが、これはちょっと意味があります – mangusta