发明公开
- 专利标题: 强化学习动作空间降维方法、系统、设备及介质
-
申请号: CN202311606759.X申请日: 2023-11-28
-
公开(公告)号: CN117634800A公开(公告)日: 2024-03-01
- 发明人: 齐晓琳 , 杨楠 , 刘金波 , 宋旭日 , 罗雅迪 , 李立新 , 於益军 , 万雄 , 狄方春 , 蔡宇 , 黄宇鹏 , 卫泽晨 , 寿增 , 王凯 , 金宜放 , 宋磊 , 韩昳 , 樊淑丽 , 邱成建 , 张风彬 , 刘幸蔚 , 赵晨晓 , 李章文 , 刘升 , 门德月 , 凌兆伟 , 曹良晶 , 刘嘉明 , 张隽 , 张天一 , 邱鹏 , 张鹏
- 申请人: 中国电力科学研究院有限公司 , 国家电网有限公司 , 国网辽宁省电力有限公司锦州供电公司 , 国网辽宁省电力有限公司 , 国网冀北电力有限公司
- 申请人地址: 北京市海淀区清河小营东路15号
- 专利权人: 中国电力科学研究院有限公司,国家电网有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国网冀北电力有限公司
- 当前专利权人: 中国电力科学研究院有限公司,国家电网有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国网冀北电力有限公司
- 当前专利权人地址: 北京市海淀区清河小营东路15号
- 代理机构: 北京中巡通大知识产权代理有限公司
- 代理商 齐书田
- 主分类号: G06Q10/0631
- IPC分类号: G06Q10/0631 ; H02J3/46 ; H02J3/38 ; H02J3/28 ; H02J3/32 ; G06Q50/06 ; G06N3/092
摘要:
本发明公开了一种强化学习动作空间降维方法、系统、设备及介质,综合考虑新型电力系统中各类可调节资源,构建面向电网实时调度计划编排强化学习训练的若干元动作空间;针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间;考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间;对宏动作空间进行非法动作空间屏蔽,得到屏蔽宏动作空间;基于屏蔽宏动作空间开展强化学习智能体训练,在训练过程中验证屏蔽宏动作空间合理性,若合理,则生成强化学习训练动作空间,否则返回连续动作空间离散化步骤,进行循环迭代,直至生成强化学习训练动作空间。