一种基于MADDPG算法的映射运行方法
摘要:
本发明属于深度强化学习领域,公开了一种基于MADDPG算法的映射运行方法,为了实现分散式调控过程中,对于差异性节点的调峰及限制过响应,提高系统安全性与经济性,引入MADDPG(Multi‑Agent Deep Deterministic Policy Gradient)的深度强化学习训练方法对辅助参数加以训练;选用多智能体算法以模拟多个参与者与环境的交互过程;然后构建Actor‑Critic架构,针对每个智能体建立值函数,形成合理的智能体训练和应用机制;随后对经验回放池、深度连接层和目标网络等进行进一步设置并融合虚拟遗憾最小化思想对稀疏奖励下的智能体训练产生引导作用;最后使用代价函数估计其他智能体策略,并针对策略集合进行优化,以实现多个智能体在训练阶段结束后,能够各自在应用状态下给出下一次最佳动作策略。
0/0