- 专利标题: 基于动态模型与事后经验回放的多目标机器人控制方法
-
申请号: CN202011281615.8申请日: 2020-11-16
-
公开(公告)号: CN112518742B公开(公告)日: 2022-01-25
- 发明人: 李秀 , 杨瑞 , 吕加飞 , 杨宇
- 申请人: 清华大学深圳国际研究生院
- 申请人地址: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
- 专利权人: 清华大学深圳国际研究生院
- 当前专利权人: 清华大学深圳国际研究生院
- 当前专利权人地址: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
- 代理机构: 深圳新创友知识产权代理有限公司
- 代理商 江耀纯
- 主分类号: B25J9/16
- IPC分类号: B25J9/16 ; B25J13/00 ; G06F30/27 ; G06N7/00 ; G06F113/28
摘要:
本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法,本发明能够学习到完成整个目标空间的策略,在泛化性上比现有方法更有优势;本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率;相比其他离线值函数估计方法没有离线偏差,虽然存在模型误差,但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度,具有更好的表现。
公开/授权文献
- CN112518742A 基于动态模型与事后经验回放的多目标机器人控制方法 公开/授权日:2021-03-19
IPC分类: