一种基于同策略正则化策略评估的离线强化学习方法

发明公开

CN117875451A 一种基于同策略正则化策略评估的离线强化学习方法审中-实审

请登陆查看更多内容

专利标题： 一种基于同策略正则化策略评估的离线强化学习方法
申请号： CN202410056084.4

申请日： 2024-01-15
公开(公告)号： CN117875451A

公开(公告)日： 2024-04-12
发明人: 程玉虎 , 曹硕 , 王雪松 , 李会军 , 赵忠祥
申请人： 中国矿业大学
申请人地址： 江苏省徐州市铜山区大学路1号中国矿业大学
专利权人： 中国矿业大学
当前专利权人： 中国矿业大学
当前专利权人地址： 江苏省徐州市铜山区大学路1号中国矿业大学
代理机构： 南京北辰联和知识产权代理有限公司
代理商 于忠洲
主分类号： G06N20/00
IPC分类号： G06N20/00 ; G06F18/214 ; G06N3/045 ; G06N3/084

摘要：

本发明公开了一种基于同策略正则化策略评估的离线强化学习方法，首先根据同策略强化学习的需求，采样状态‑动作‑奖励‑状态‑动作形式，即SARSA‑style的经验转换数据作为训练样本；然后在同策略正则化策略评估过程中，利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项，来共同正则化异策略Q学习形式，即QL‑style的最优Q函数；最后在策略提升的配合下，不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下，能够稳定且自然地将同策略的保守性引入到学习Q函数，并将学习Q函数可控地限制在其真实值附近。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N20/00	机器学习