基于差异化奖励的源网荷储运行优化方法、系统、装置及介质

    公开(公告)号:CN117791591A

    公开(公告)日:2024-03-29

    申请号:CN202311843118.6

    申请日:2023-12-28

    摘要: 本发明公开了一种基于差异化奖励的源网荷储运行优化方法、系统、装置及介质,包括:构建源网荷储协同优化场景中各智能体的状态空间与动作空间;基于各智能体的状态空间与动作空间,以系统日运行成本最低为优化目标和以最大化自身奖励为训练目标,并考虑不等式约束对智能体训练的约束,对智能体奖励函数进行优化,获取反事实奖励函数;基于反事实奖励函数,对源网荷储多智能体协同优化模型进行训练,获取源网荷储的局部自治与全局趋优。本发明能够有效防止发生懒惰智能体问题,达到激励智能体选择可以获得高效用动作的目的;实现多智能体深度强化学习模型的高效训练,有效支撑源网荷储的局部自治与全局趋优。

    考虑涵盖电动汽车集群的配电网优化调度方法及相关装置

    公开(公告)号:CN117200225B

    公开(公告)日:2024-01-30

    申请号:CN202311470809.6

    申请日:2023-11-07

    摘要: 本申请提出一种考虑涵盖电动汽车集群的配电网优化调度方法,将配电网优化调度分为位于上层的配电网优化调度层和位于下层的电动汽车集群管理层,分别构建模型,通过多智能体深度强化学习方法对配电网优化调度层模型求解,得到第一子优化算法,通过现代启发式智能算法对电动汽车集群管理层模型求解,得到第二子优化算法,第一子优化算法和第二子优化算法组成优化调度策略,将各微网机组信息输入优化调度策略得到优化结果。配电网优化调度层和电动汽车集群管理层的双层结构,具有易扩展、适应配电网拓扑变化等优势。通过第一子优化算法能够实现配电网内多微网协同优化,通过第二子优化算法实现各微网电动汽车集群所管辖电动汽车各时段调度计划制定。

    能源互联网协同优化加速求解方法、系统、设备及介质

    公开(公告)号:CN115276118A

    公开(公告)日:2022-11-01

    申请号:CN202210949983.8

    申请日:2022-08-09

    IPC分类号: H02J3/46 H02J3/06

    摘要: 一种能源互联网协同优化加速求解方法、系统、设备及介质,求解方法包括:建立基于交替方向乘子算法的能源互联网协同优化模型;针对所述能源互联网协同优化模型中的乘子系数建立强化学习模型;通过强化学习模型加速更新所述能源互联网协同优化模型中的乘子系数;利用乘子系数更新后的能源互联网协同优化模型求解能源互联网协同优化结果。本发明建立了基于交替方向乘子算法的能源互联网协同优化模型,并且建立了乘子系数强化学习模型,通过强化学习模型加速更新能源互联网协同优化模型中的乘子系数,提出了一种基于强化学习更新乘子系数的交替方向乘子算法加速求解方法,减少了优化计算的迭代步数,从而使优化过程的计算效率提高,加速优化进程。

    一种基于人工智能神经网络的电网潮流控制方法及系统

    公开(公告)号:CN115065063A

    公开(公告)日:2022-09-16

    申请号:CN202210887164.5

    申请日:2022-07-26

    摘要: 本发明属于电网运行及人工智能技术领域,公开一种基于人工智能神经网络的电网潮流控制方法及系统;所述方法包括:获取目标电网的潮流数据;以目标电网所有节点电压的幅值和相角,线路的有功、无功潮流,以及待控制线路有功潮流预设的变化量为输入;带入到预先训练好的待控制线路的人工智能神经网络模型中进行辨识,得到待控制线路的两端电压差;控制待控制线路的首端节点与末端节点之间的电压差等于所述两端电压差。本发明通过人工智能神经网络模型将线路的功率调整值和线路两端电压差关联,当启动线路潮流控制方案,则通过控制节点电压的方式来实现线路上的潮流优化。

    能源互联网的协同优化决策方法、系统、设备及存储介质

    公开(公告)号:CN114977326A

    公开(公告)日:2022-08-30

    申请号:CN202210706842.3

    申请日:2022-06-21

    IPC分类号: H02J3/46 H02J3/48 H02J3/50

    摘要: 一种能源互联网的协同优化决策方法、系统、设备及存储介质,方法包括设置奖励机制寻找最优策略,以最优策略作为智能体深度强化学习的训练目标,对区域能源互联网运行优化模型进行求解,得到最优解作为动作策略;智能体根据能源互联网当前的运行状态,取相似性度量最小值所对应运行状态的动作策略作为深度强化学习训练的初值进行训练,给出训练后相应的动作策略;将动作策略传递给环境后,运行状态过渡到下一时刻的状态,通过设置的奖励机制和动作约束条件,给予动作策略的好坏进行相应奖励,通过迭代训练,得到深度强化学习模型;利用深度强化学习模型基于运行状态相似度对各时刻动作协同优化决策。本发明能够实现能源互联网的快速精准优化调度。