私は要素に関する情報がほとんどないリストを持っています。これらの要素は順序付けられており、正しい順序を見つける必要があります。私ができることは、仮説の完全な順序で質問を提出し、注文のどの部分が正しい/間違っているかについての情報なしに、真の順序からどれくらい離れているかを表すスコア(0と1の間)を得ることです。要素の順序を学習する
これは標準的な問題のようですが、その情報を見つけることができませんでした。
EDIT:単純化のために、仮定された順序付けのスコアは正しいペア順序付けの割合(実際の未知の順序と比較して)と仮定します。あなたは逆の順序を与えている場合は0を返し、実際の順序を与える場合は1を返します。 過去の回答に基づいてクエリを生成して学習時間を最小限に抑え、スコアを最大化できる戦略/アルゴリズムはありますか?
アルゴリズムをランク付けすることは助けが必要だと思っていましたが、それらの処方は私が必要とするものからは遠く離れているように見えました。私はいくつかの補強学習アルゴリズムを見ています
しかし、任意の参照/ヒント/助けに感謝します。
ありがとうございました。
これは非常に難しい問題です。 Deep-Q-Learningのアプローチ(Deepmindによる有名なAtari学習論文、Q-learning =いくつかのRL-appなど)は、モデルのない学習アプローチであるため、一般的な習得のための学習が可能です。もちろん、学ぶべきことがあることが必要です(ネットワークアーキテクチャによって把握できる)。この学習はオンラインで行われ、現在学習されている情報に基づいてクエリが生成され、知識が向上します。 **しかし、最小限のクエリ数でこれを学びたい場合は、より多くのバンディット理論に基づく学習アプローチを設計する必要があります。 – sascha