- 专利标题: 具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统
-
申请号: CN202410079321.9申请日: 2024-01-19
-
公开(公告)号: CN118036644A公开(公告)日: 2024-05-14
- 发明人: 李一兵 , 黄雨杰 , 孙骞 , 叶方 , 田园 , 王杰恪 , 徐定西
- 申请人: 哈尔滨工程大学
- 申请人地址: 黑龙江省哈尔滨市南岗区南通大街145号
- 专利权人: 哈尔滨工程大学
- 当前专利权人: 哈尔滨工程大学
- 当前专利权人地址: 黑龙江省哈尔滨市南岗区南通大街145号
- 代理机构: 哈尔滨市阳光惠远知识产权代理有限公司
- 代理商 姜明君
- 主分类号: G06N3/006
- IPC分类号: G06N3/006 ; G06N3/092 ; G06N3/048 ; G06N3/0499
摘要:
本发明属于多智能体协同围捕领域,提供一种具有时间特征提取机制的深度强化学习多智能体协同围捕方法及其围捕系统。步骤1:初始化环境信息,确定智能体逃跑策略,确定演员网络与中心评论员网络的观测空间,构造奖励函数,构造围捕任务完成条件;步骤2:构建MADDPG架构,其中包括一个具有时间特征提取机制的中心评论员网络以及演员网络;步骤3:智能体与环境信息交互,收集数据,进行预热;步骤4:更新神经网络参数;步骤5:重复步骤4直到完成训练回合数,最终得到训练完成的演员网络,以实现多智能体协同围捕。对于围捕任务来说,准确提取时间特征至关重要,它不仅能显著提升围捕的成功率,也是推进多智能体系统智能化水平的关键。