私はポリシー反復法を使ってガードワールドを解決する方法を知っています。どのようにして一般的な環境を解決することができますか?私のデータは、このようなものです:ポリシー反復を使用してJavaの一般的な環境エージェントを解決するにはどうすればよいですか?
これは私のデータの一部であり、それは遷移モデルを説明し、私はグリッドの世界を作成したくない、送信元と宛先のタイプがStringで言及してください。
私の状態を定義する方法と、それらを取得する方法がわかりません。ベクターを使ってそれらを保存することはできますか?それらを定義する方法が最初の問題です。
青い言葉をクリックすると、私のデータ画像が表示されます。ありがとう。 –