一种被控系统运行调度的高效率强化学习方法及装置

发明公开

CN118674066A 一种被控系统运行调度的高效率强化学习方法及装置审中-实审

请登陆查看更多内容

专利标题： 一种被控系统运行调度的高效率强化学习方法及装置
申请号： CN202410798963.4

申请日： 2024-06-20
公开(公告)号： CN118674066A

公开(公告)日： 2024-09-20
发明人: 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮
申请人： 清华大学 , 南方电网科学研究院有限责任公司
申请人地址： 北京市海淀区清华园;
专利权人： 清华大学,南方电网科学研究院有限责任公司
当前专利权人： 清华大学,南方电网科学研究院有限责任公司
当前专利权人地址： 北京市海淀区清华园;
代理机构： 北京三友知识产权代理有限公司
代理商 许曼; 贾磊
主分类号： G06N20/00
IPC分类号： G06N20/00 ; G06F17/18 ; G06Q10/067 ; G06Q10/0631 ; G06Q50/06

摘要：

本发明涉及强化学习领域，提供了一种被控系统运行调度的高效率强化学习方法及装置，方法包括：对被控系统的各状态‑动作对进行采样，根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量；利用采样数据分配算法确定各状态下各动作目标样本量；根据各动作目标样本量与各动作已消耗样本量，确定各动作补充采样数量；根据各动作补充采样数量进行补充采样，利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差；调整已消耗采样总量，判断已消耗样本总量满足动作采样数量约束条件，若是，则输出各状态下观测到的最优动作，本发明能够区分各状态动作的重要性，提升采样效率及优化策略性能。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N20/00	机器学习