搜索资源列表
lowai
- pku 1011 George took sticks of the same length and cut them randomly until all parts became at most 50 units long. Now he wants to return sticks to the original state, but he forgot how many sticks he had originally and
ACM
- PKU ACM大量题目的源代码,具有学习价值-PKU ACM' s source code a large number of topics
timus-1709
- acm.timus.ru 1709 problem
1709.04326
- 多智能体设置在机器学习中的重要性日益突出。超过了最近的大量关于深度的工作多agent强化学习,层次强化学习,生成对抗网络和分散优化都可以看作是这种设置的实例。然而,多学习代理人的存在这些设置使得培训问题的非平稳常常导致不稳定的训练或不想要的最终结果。我们提出学习与对手的学习意识(萝拉),一种方法,原因的预期。其他代理的学习。罗拉学习规则包括一个额外的术语,解释了在预期的参数更新的代理政策其他药物。我们发现,利用似然比策略梯度更新的方法,