专利检索 ap:("清华大学") AND inv:"陆逸文" 第 1 页

1.

发明公开
基于低阶高斯分布的多智能体协同探索方法及装置有权

公开(公告)号：CN112215333A

公开(公告)日：2021-01-12

申请号：CN202010962997.4

申请日：2020-09-14

申请人： 清华大学

发明人： 马骁腾 , 杨以钦 , 陆逸文 , 莫一林 , 赵千川

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置，其中，该方法包括：获取多智能体决策下的状态轨迹，将状态轨迹存入数据缓存器；构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；基于状态轨迹和值函数分解算法的多智能体协同探索过程，对上述构建的相关网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

2.

发明授权
基于低阶高斯分布的多智能体协同探索方法及装置有权

公开(公告)号：CN112215333B

公开(公告)日：2022-08-12

申请号：CN202010962997.4

申请日：2020-09-14

申请人： 清华大学

发明人： 马骁腾 , 杨以钦 , 陆逸文 , 莫一林 , 赵千川

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置，其中，该方法包括：获取多智能体决策下的状态轨迹，将状态轨迹存入数据缓存器；构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；基于状态轨迹和值函数分解算法的多智能体协同探索过程，对上述构建的相关网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。