- 专利标题: 一种基于安全互模拟度量的视觉强化学习方法
-
申请号: CN202410106823.6申请日: 2024-01-25
-
公开(公告)号: CN117933349A公开(公告)日: 2024-04-26
- 发明人: 王雪松 , 王荣荣 , 程玉虎 , 王浩宇 , 李会军 , 赵忠祥
- 申请人: 中国矿业大学
- 申请人地址: 江苏省徐州市铜山区大学路1号中国矿业大学
- 专利权人: 中国矿业大学
- 当前专利权人: 中国矿业大学
- 当前专利权人地址: 江苏省徐州市铜山区大学路1号中国矿业大学
- 代理机构: 南京北辰联和知识产权代理有限公司
- 代理商 于忠洲
- 主分类号: G06N3/092
- IPC分类号: G06N3/092
摘要:
本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。
公开/授权文献
- CN117933349B 一种基于安全互模拟度量的视觉强化学习方法 公开/授权日:2024-07-26