一种基于MADDPG算法的映射运行方法

Invention Publication

CN115759370A 一种基于MADDPG算法的映射运行方法审中-实审

Please log in to see more content

Patent Title: 一种基于MADDPG算法的映射运行方法
Application No.: CN202211383630.2

Application Date: 2022-11-07
Publication No.: CN115759370A

Publication Date: 2023-03-07
Inventor: 孙勇 , 李宝聚 , 刘闯 , 王佳蕊 , 李德鑫 , 陈厚合 , 王尧 , 胡枭 , 王惠锋 , 孟祥东 , 吕项羽 , 王伟 , 李成钢 , 张家郡 , 冷俊 , 高松 , 刘畅 , 张海锋 , 庄冠群
Applicant: 国网吉林省电力有限公司 , 国网吉林省电力有限公司电力科学研究院 , 东北电力大学 , 吉林省电力科学研究院有限公司
Applicant Address: 吉林省长春市南关区人民大街10388号; ; ;
Assignee: 国网吉林省电力有限公司,国网吉林省电力有限公司电力科学研究院,东北电力大学,吉林省电力科学研究院有限公司
Current Assignee: 国网吉林省电力有限公司,国网吉林省电力有限公司电力科学研究院,东北电力大学,吉林省电力科学研究院有限公司
Current Assignee Address: 吉林省长春市南关区人民大街10388号; ; ;
Agency: 长春市吉利专利事务所
Agent 李晓莉
Main IPC: G06Q10/04
IPC: G06Q10/04 ; G06Q10/0631 ; G06Q50/06 ; G06N3/04 ; G06N3/08

Abstract:

本发明属于深度强化学习领域，公开了一种基于MADDPG算法的映射运行方法，为了实现分散式调控过程中，对于差异性节点的调峰及限制过响应，提高系统安全性与经济性,引入MADDPG(Multi‑Agent Deep Deterministic Policy Gradient)的深度强化学习训练方法对辅助参数加以训练；选用多智能体算法以模拟多个参与者与环境的交互过程；然后构建Actor‑Critic架构，针对每个智能体建立值函数，形成合理的智能体训练和应用机制；随后对经验回放池、深度连接层和目标网络等进行进一步设置并融合虚拟遗憾最小化思想对稀疏奖励下的智能体训练产生引导作用；最后使用代价函数估计其他智能体策略，并针对策略集合进行优化，以实现多个智能体在训练阶段结束后，能够各自在应用状态下给出下一次最佳动作策略。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06Q	专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10/00	行政；管理
G06Q10/04	.预测或优化，例如线性规划、“旅行商问题”或“下料问题”