基于对偶行为正则化的离线强化学习方法

发明公开

CN117236413A 基于对偶行为正则化的离线强化学习方法审中-公开

请登陆查看更多内容

专利标题： 基于对偶行为正则化的离线强化学习方法
申请号： CN202311065344.6

申请日： 2023-08-22
公开(公告)号： CN117236413A

公开(公告)日： 2023-12-15
发明人: 程玉虎 , 曹硕 , 王雪松 , 赵忠祥
申请人： 中国矿业大学
申请人地址： 江苏省徐州市大学路1号中国矿业大学科研院
专利权人： 中国矿业大学
当前专利权人： 中国矿业大学
当前专利权人地址： 江苏省徐州市大学路1号中国矿业大学科研院
代理机构： 南京瑞弘专利商标事务所
代理商 吴旭
主分类号： G06N3/092
IPC分类号： G06N3/092

摘要：

本发明公开了一种基于对偶行为正则化的离线强化学习方法，属于离线强化学习领域，首先，在反探索行为值正则化策略评估过程中，利用Q值与行为Q值的残差奖励作为Q值损失函数的反探索行为值正则项来驱动Q值逼近行为Q值；然后，在温和局部行为克隆正则化策略提升过程中，利用行为策略在不同状态下动作样本的估计方差来设计策略损失函数的温和局部行为克隆正则项，有效规范行为克隆的约束强度；最后，不断耦合迭代设计的反探索行为值正则化策略评估和温和局部行为克隆正则化策略提升，直至整个策略迭代过程学习到满足强化学习智能体部署需求的任务解决策略。本发明不仅有效缓解了过度乐观Q值的估计偏差，并且高效提升了策略改进的潜力。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet