基于可变时间常数梯度算法的综合能源系统优化调度方法
摘要:
本发明公开了基于可变时间常数梯度算法的综合能源系统优化调度方法。该方法首先基于综合能源系统经济调度特性建立马尔可夫决策过程模型,并建立目标优化函数。然后应用双延迟深度确定性策略梯度算法构建并训练神经网络,在更新目标网络前确定有效经验,根据当前回合的奖励值为与上一轮软更新时的奖励值的大小,设置可变时间常数,使目标网络的更新权重能根据当前系统状态灵活调节,从而显著增强模型的训练效率,减少计算资源的消耗。最后使用训练好的智能体进行综合能源系统日内调度,从而实现综合能源系统最优经济成本运行。本方法在复杂多变的综合能源系统环境中,帮助模型更快的适应新情况,做出更好的决策,有助于综合能源系统的推广应用。
0/0