基于动态模型与事后经验回放的多目标机器人控制方法

Invention Grant

CN112518742B 基于动态模型与事后经验回放的多目标机器人控制方法有权

Please log in to see more content

Patent Title: 基于动态模型与事后经验回放的多目标机器人控制方法
Application No.: CN202011281615.8

Application Date: 2020-11-16
Publication No.: CN112518742B

Publication Date: 2022-01-25
Inventor: 李秀 , 杨瑞 , 吕加飞 , 杨宇
Applicant: 清华大学深圳国际研究生院
Applicant Address: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
Assignee: 清华大学深圳国际研究生院
Current Assignee: 清华大学深圳国际研究生院
Current Assignee Address: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
Agency: 深圳新创友知识产权代理有限公司
Agent 江耀纯
Main IPC: B25J9/16
IPC: B25J9/16 ; B25J13/00 ; G06F30/27 ; G06N7/00 ; G06F113/28

Abstract:

本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法，本发明能够学习到完成整个目标空间的策略，在泛化性上比现有方法更有优势；本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率；相比其他离线值函数估计方法没有离线偏差，虽然存在模型误差，但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度，具有更好的表现。

Public/Granted literature

CN112518742A 基于动态模型与事后经验回放的多目标机器人控制方法 Public/Granted day:2021-03-19

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

B	作业；运输
B25	手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J	机械手；装有操纵装置的容器（单独采摘水果、蔬菜、啤酒花或类似作物的自动装置入A01D46/30；外科用的针头操纵器入A61B17/062；与滚轧机有关的机械手入B21B39/20；与锻压机有关的机械手入B21J13/10；夹持轮子或其部件的装置入B60B30/00；起重机入B66C；用于核反应堆中所用的燃料或其他材料的处理设备入G21C19/00；机械手与加有防辐射的小室或房间的组合结构入G21F7/06）
B25J9/00	程序控制机械手
B25J9/16	.程序控制（全面生产控制，即集中控制多台机器入G05B19/418）