发明公开
- 专利标题: 一种基于MADDPG算法的映射运行方法
-
申请号: CN202211383630.2申请日: 2022-11-07
-
公开(公告)号: CN115759370A公开(公告)日: 2023-03-07
- 发明人: 孙勇 , 李宝聚 , 刘闯 , 王佳蕊 , 李德鑫 , 陈厚合 , 王尧 , 胡枭 , 王惠锋 , 孟祥东 , 吕项羽 , 王伟 , 李成钢 , 张家郡 , 冷俊 , 高松 , 刘畅 , 张海锋 , 庄冠群
- 申请人: 国网吉林省电力有限公司 , 国网吉林省电力有限公司电力科学研究院 , 东北电力大学 , 吉林省电力科学研究院有限公司
- 申请人地址: 吉林省长春市南关区人民大街10388号; ; ;
- 专利权人: 国网吉林省电力有限公司,国网吉林省电力有限公司电力科学研究院,东北电力大学,吉林省电力科学研究院有限公司
- 当前专利权人: 国网吉林省电力有限公司,国网吉林省电力有限公司电力科学研究院,东北电力大学,吉林省电力科学研究院有限公司
- 当前专利权人地址: 吉林省长春市南关区人民大街10388号; ; ;
- 代理机构: 长春市吉利专利事务所
- 代理商 李晓莉
- 主分类号: G06Q10/04
- IPC分类号: G06Q10/04 ; G06Q10/0631 ; G06Q50/06 ; G06N3/04 ; G06N3/08
摘要:
本发明属于深度强化学习领域,公开了一种基于MADDPG算法的映射运行方法,为了实现分散式调控过程中,对于差异性节点的调峰及限制过响应,提高系统安全性与经济性,引入MADDPG(Multi‑Agent Deep Deterministic Policy Gradient)的深度强化学习训练方法对辅助参数加以训练;选用多智能体算法以模拟多个参与者与环境的交互过程;然后构建Actor‑Critic架构,针对每个智能体建立值函数,形成合理的智能体训练和应用机制;随后对经验回放池、深度连接层和目标网络等进行进一步设置并融合虚拟遗憾最小化思想对稀疏奖励下的智能体训练产生引导作用;最后使用代价函数估计其他智能体策略,并针对策略集合进行优化,以实现多个智能体在训练阶段结束后,能够各自在应用状态下给出下一次最佳动作策略。