强化学习动作空间降维方法、系统、设备及介质
摘要:
本发明公开了一种强化学习动作空间降维方法、系统、设备及介质,综合考虑新型电力系统中各类可调节资源,构建面向电网实时调度计划编排强化学习训练的若干元动作空间;针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间;考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间;对宏动作空间进行非法动作空间屏蔽,得到屏蔽宏动作空间;基于屏蔽宏动作空间开展强化学习智能体训练,在训练过程中验证屏蔽宏动作空间合理性,若合理,则生成强化学习训练动作空间,否则返回连续动作空间离散化步骤,进行循环迭代,直至生成强化学习训练动作空间。
0/0