2

私は要素に関する情報がほとんどないリストを持っています。これらの要素は順序付けられており、正しい順序を見つける必要があります。私ができることは、仮説の完全な順序で質問を提出し、注文のどの部分が正しい/間違っているかについての情報なしに、真の順序からどれくらい離れているかを表すスコア(0と1の間)を得ることです。要素の順序を学習する

これは標準的な問題のようですが、その情報を見つけることができませんでした。

EDIT:単純化のために、仮定された順序付けのスコアは正しいペア順序付けの割合(実際の未知の順序と比較して)と仮定します。あなたは逆の順序を与えている場合は0を返し、実際の順序を与える場合は1を返します。 過去の回答に基づいてクエリを生成して学習時間を最小限に抑え、スコアを最大化できる戦略/アルゴリズムはありますか?

アルゴリズムをランク付けすることは助けが必要だと思っていましたが、それらの処方は私が必要とするものからは遠く離れているように見えました。私はいくつかの補強学習アルゴリズムを見ています

しかし、任意の参照/ヒント/助けに感謝します。

ありがとうございました。

+1

これは非常に難しい問題です。 Deep-Q-Learningのアプローチ(Deepmindによる有名なAtari学習論文、Q-learning =いくつかのRL-appなど)は、モデルのない学習アプローチであるため、一般的な習得のための学習が可能です。もちろん、学ぶべきことがあることが必要です(ネットワークアーキテクチャによって把握できる)。この学習はオンラインで行われ、現在学習されている情報に基づいてクエリが生成され、知識が向上します。 **しかし、最小限のクエリ数でこれを学びたい場合は、より多くのバンディット理論に基づく学習アプローチを設計する必要があります。 – sascha

答えて

1

これは主に問題の考え方に関する方法です。

距離の計算方法を理解する必要があります。この問題を考える方法の1つは、組み合わせの空間の問題です。 nの要素がある場合は、空間の各点が要素の順序を表すn次元空間を考えてください。これらのポイントの1つは、最適なスコアで「正しい」です。

スペースの任意の(有効な)ポイントから所定の正しいポイントまでの距離メトリックがあります。質問は、「正しい」答えを見つける方法です。

勾配降下の解決策が機能する可能性があります。この問題に適用されるように、ランダムな点から始まり、さまざまな方向(値を入れ替えることによって)で簡単な「ステップ」を検討し、スコアを最も良くする方向に移動します。問題は、解空間におそらく解空間に広く分散している局所最適解があることです。つまり、「局所」解法(ステッピングなど)が局所最適解に惑わされる可能性があります。しかしそれはうまくいくかもしれません。

このようなブルー​​トフォースかもしれません。すべてゼロのベクトルで始まり、そのスコアを測定する。次に、各位置の最初の値をテストし、スコアを最小にする位置を選択します。値が正しい位置にあるときに得点メトリックが最小化されるというのが私の感想です。次に、それぞれの値に対して繰り返します。

+0

私はあなたの意見を持っているか分からない。潜在的な注文について問い合わせると、私は応答(例えば0.6)の数字だけを得る。これは私が行くべき方向と私は何を変えなければならないのか?私はグリットの改善が得られるかどうかを見るために多くのスワップを試すことができますが、これは非常に非効率的な方法であり、多くのクエリを必要とします。 スコアがどのように計算されるかについては、上記の質問 – amit

+0

@amitを参照してください。あなたが記述する環境は、この非常に複雑な問題をさらに複雑にする典型的なブラックボックスまたは派生自由環境です。速い場合は、勾配を近似するために有限差分に固執する可能性があります)。あなたの投稿にはたくさんの詳細もありません。スコアリング手順が**メトリック**であるかどうかはわかりません。繰り返しますが、クエリを最小限に抑えるためには、バンディット理論を見てください。しかし、まあ...まだ非常に難しい問題です。そして、すべての学習からランクへのアプローチが合わない場合(理由を説明していない)、それは貴重なリソースです! – sascha

+0

@amit。 。 。たとえば、可能なすべての単一スワップO(n^2)を試してから、スコアに最も効果のあるスワップを選択することができます。 –

関連する問題