搜索资源列表
万门大学强化学习GridEvalu模型GridPolicy模型
- 万门大学,强化学习,Grid_world_evaluation模型算法代码实现, V(S) = V(S) + A * ( R(S) + r*V(new_S) - V(S) ) Grid_world_Policy模型, P(S) = P(S) + A * ( R(S) + r*P(new_S) - P(S) )(In the intensive learning of the University of Wan men,