具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统
摘要:
本发明属于多智能体协同围捕领域,提供一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。步骤1:初始化环境信息,确定智能体逃跑策略,确定演员网络与中心评论员网络的观测空间,构造奖励函数,构造围捕任务完成条件;步骤2:构建MADDPG架构,其中包括一个具有时间特征提取机制的中心评论员网络以及演员网络;步骤3:智能体与环境信息交互,收集数据,进行预热;步骤4:更新神经网络参数;步骤5:重复步骤4直到完成训练回合数,最终得到训练完成的演员网络,以实现多智能体协同围捕。对于围捕任务来说,准确提取时间特征至关重要,它不仅能显著提升围捕的成功率,也是推进多智能体系统智能化水平的关键。
0/0