3

センチメント分析のようなバイナリ分類の問題を想像してください。私たちはラベルを持っているので、実際の予測とRLの報酬とのギャップを使用しないのですか?テキスト分類に強化学習を使用する例がありますか?

私は分類の問題

+1

分類問題にRLを使用する際のポイントは何ですか?つまり、何か改善や利点があると思いますか?この質問に記載されているように、一般にパフォーマンスは悪化する(または計算上より高価になる):https://stackoverflow.com/questions/44594007 –

答えて

3

興味深い思考のための強化学習を試してみたいです!私の知識によれば、それを行うことができます。

  1. 模倣学習 - ハイレベルでは、それは環境にエージェントによって実行されるサンプルの軌跡を観察し、特定のSTAT構成所定のポリシーを予測するために使用されます。私はモデルの解釈能力がより高いので、予測のための確率的グラフィカルモデルを好む。私は、研究論文から同様のアルゴリズムを実装している:http://homes.soic.indiana.edu/natarasr/Papers/ijcai11_imitation_learning.pdf

  2. 逆強化学習 - 再びサンプル軌道から報酬関数を見つけるために、スタンフォード大学からのアンドリュー・ウによって開発された同様の方法、および報酬関数は、フレームに使用することができます望ましい行動。 http://ai.stanford.edu/~ang/papers/icml00-irl.pdf

関連する問題