文件名称:MDPgridworldExample
介绍说明--下载内容均来自于网络,请自行研究使用
世界是空格自由(0)或障碍物(1)。每转动机器人可以在8个方向移动,或者留在地方。奖励功能,给人一种自由空间,目标定位,高回报。所有其他空格自由具有小的损失,和障碍具有大的负的奖励。值迭代是用来学习的最佳“政策”,即指定一个控制输入到每一个可能的位置的功能。- The world is freespaces (0) or obstacles (1). Each turn the robot can move in 8 directions, or stay in place. A reward function gives one freespace, the goal location, a high reward. All other freespaces have a small penalty, and obstacles have a large negative reward. Value iteration is used to learn an optimal policy , a function that assigns a control input to every possible location.
(系统自动生成,下载前可以参看下载内容)
下载文件列表
license.txt
MDPgridworldExample.m