文件名称:ReinforcementLearning
介绍说明--下载内容均来自于网络,请自行研究使用
马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。
强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。
强化学习就是:追求最大回报G
追求最大回报G就是:找到最优的策略π?。
策略π?告诉在状态s,应该执行什么行动a。
最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the optimal decision process of stochastic dynamic systems.Reinforcing Learning Use this mathematical model to turn a real problem into a mathematical problem.)
强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。
强化学习就是:追求最大回报G
追求最大回报G就是:找到最优的策略π?。
策略π?告诉在状态s,应该执行什么行动a。
最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the optimal decision process of stochastic dynamic systems.Reinforcing Learning Use this mathematical model to turn a real problem into a mathematical problem.)
相关搜索: 增强学习算法;MATLAB
(系统自动生成,下载前可以参看下载内容)