2017-02-19 5 views
1

PDDLにプランを作成して、それぞれにスコアを持つn個の場所のサブセットを訪問する必要があります。私は個々の得点の合計として定義される効用を最大限にする必要があります。このドメインをPDDLでどのように表現すればよいですか?具体的には、どのように各場所のスコアを格納するのですか?PDDLに数学的な値を格納するには?

答えて

3

私はあなたが行動コストと計画メトリックに精通していることを前提としています。そうでない場合は、コメントに記載してください。

最も簡単な方法は、おそらく、アクションコストです。解決しなければならない問題は、プランの品質がプランの実行後に訪れた場所に関連付けられているため、実行するアクションのコストに直接関連するものではなく、状態変数あなたが作ったもの。したがって、エージェントがある場所を訪問するような行動が実行されるたびに計画の品質を向上させ、同じ場所を複数回訪問することができるため、計画の品質が間違っているとしましょう。

(1)は、それぞれの場所で正確に1回だけ実行可能なアクションです。 (2)には、次のようなアクションが追加されています。エージェントが現在その場所にいる場合にのみ実行可能です。(3)影響がその場所のスコアによって計画の品質を向上させます。

次に、プランメトリックを最大化および最大化するように設定する必要があります。あなたは終わった。

これはなぜ機能しますか? (A)あなたのエージェントがある場所にいる場合、メジャーメトリックの最大値は、(2)アクションのために品質を向上させるアクションをプランナに適用させます。 (B)これらの追加アクションでは、 (1)のために、そのような行動のそれぞれは、場所ごとに1回のみ適用される。起こる可能性があるのは、あなたが場所を訪れたが、プランナーがプランの品質を向上させるアクションを適用しないことです(そうすることもできます)。しかし、それはプランナーの選択であり、そうは思わないでしょう。

別の可能性は、いわゆる状態依存のアクションコストに依存することです。しかし、そのコンセプトはまったく新しく(私が正しく覚えていれば約2年)、それを処理できるプランナーの数は限られていると思うし、標準的なPDDLの一部ではない特殊な構文が必要であると仮定している仕様。

+0

ありがとうございました。私はしばらく試していましたが、これが解決に役立ちました。 –

関連する問題