2017-01-14 13 views
-5

教師と教師なしの学習については知っていますが、補強機械の学習の仕組みはまだ分かりません。補強機械学習とは何ですか?

誰かが適切な例で私を助けることができますか?どのように動作するのかをユースケースで把握できますか?

+0

http://stackoverflow.com/tags/reinforcement-learning/info –

答えて

2

補強機械の学習は、フィードバックが「良い」または「悪い」という経験からマシンが学習するときです。

古典的な例は、ゲームのエージェントを訓練するときです。あなたはまず、あなたが持っている(監督されている)データを使ってあなたのエージェントを訓練し始め、疲れたときにいくつかのエージェントを訓練して、互いに競争させましょう。勝つ者は「強化」され、進んでいきます。

これは、ポリシー・ネットワークは、したがって、結果を使用して、それらが互いに対戦させることで を改善した ...

TD-Gammonで、以前)train AlphaGoに使用する「トリック」の一つでしたこれらのゲームはトレーニング信号として です。これは、補強 学習、または深い強化学習(ネットワーク が訓練されているため)と呼ばれます。

+0

私はあなたの答えの多くが好きですが、私はこれで満足していません。もちろん、このような複雑なトピックを要約するのは難しいですが、私は言葉や例が気に入らないのです。 (1) '' 'フィードバックは「良い」または「悪い」' ''これはバイナリ報酬を示しますが、RLは数値的報酬(より一般的)に基づいています。 (2)*ゲームの例1 *:この予備学習はオプションです(データが利用可能であれば良い考えです)。しかし、それは必要ではありません。 (3)*ゲームex。 2:可能なアンサンブルまたはマルチエージェントの設定を示します。しかしもちろん、単一のエージェントも学ぶことができます(より頻繁に使用されるimho)。 – sascha

1

教師付き学習と教師なし学習について述べました。 これら3

  • 教師付き学習に若干の違いがあります:あなたは、データの各タプルのラベルを持っています。

  • 教師なし学習:あなたはタプルのラベルを持っていないが、あなたは

  • 強化学習入力間の関係を見つけたい:あなたはスパースエントリのために非常に少数のラベルを持っています。そのラベルは報酬です。

強化学習は、新しい状況について人がどのように学習するかというプロセスです。任意のランダムな行動を取り、環境の挙動を観察し、それに応じて学習する。

報酬とは何ですか?

報酬は、環境からの肯定的または否定的フィードバックです。アクションは、すべての将来の報酬を担当します。将来的に最も肯定的な報酬を得ることができる行動をとる必要があります。

これは、Q-ラーニングアルゴリズムによって達成できます。私はあなたにこのトピックについて確認してほしい。

私はパクマンを訓練するための補強アルゴリズムを使用しました。あなたはゲームを知っていればいいと思う。目標は幽霊に当たってはならない行動をとることであり、マップからすべてのポイントを取ることができるはずです。それは多くの反復と数千のゲームプレイの後にそれ自身を鍛える。私も特定のトラックを運転するために車を鍛えるために同じものを使用しました!

補強学習を使用して、AIを訓練してゲームを学習できます。より複雑なゲームにはニューラルネットワークが必要ですが、それはディープラーニングと呼ばれます。