发明公开
- 专利标题: 一种被控系统运行调度的高效率强化学习方法及装置
-
申请号: CN202410798963.4申请日: 2024-06-20
-
公开(公告)号: CN118674066A公开(公告)日: 2024-09-20
- 发明人: 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮
- 申请人: 清华大学 , 南方电网科学研究院有限责任公司
- 申请人地址: 北京市海淀区清华园;
- 专利权人: 清华大学,南方电网科学研究院有限责任公司
- 当前专利权人: 清华大学,南方电网科学研究院有限责任公司
- 当前专利权人地址: 北京市海淀区清华园;
- 代理机构: 北京三友知识产权代理有限公司
- 代理商 许曼; 贾磊
- 主分类号: G06N20/00
- IPC分类号: G06N20/00 ; G06F17/18 ; G06Q10/067 ; G06Q10/0631 ; G06Q50/06
摘要:
本发明涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够区分各状态动作的重要性,提升采样效率及优化策略性能。