专利检索 ap:("清华大学") AND inv:"马骁腾" 第 1 页

1.

发明授权
基于注意力机制的多智能体值函数分解方法及装置有权

公开(公告)号：CN112101564B

公开(公告)日：2024-09-06

申请号：CN202010824845.8

申请日：2020-08-17

申请人： 清华大学

发明人： 杨以钦 , 马骁腾 , 李承昊 , 杨君 , 梁斌

IPC分类号： G06N3/092 , G06N3/006 , G06N3/045 , G06N3/084 , G06N3/0985

摘要： 本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置，该方法包括：获取多个智能体决策下的状态轨迹；构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络；基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程，对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

2.

发明授权
基于低阶高斯分布的多智能体协同探索方法及装置有权

公开(公告)号：CN112215333B

公开(公告)日：2022-08-12

申请号：CN202010962997.4

申请日：2020-09-14

申请人： 清华大学

发明人： 马骁腾 , 杨以钦 , 陆逸文 , 莫一林 , 赵千川

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置，其中，该方法包括：获取多智能体决策下的状态轨迹，将状态轨迹存入数据缓存器；构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；基于状态轨迹和值函数分解算法的多智能体协同探索过程，对上述构建的相关网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

3.

发明授权
基于生成对抗机制的强化学习探索方法及装置有权

公开(公告)号：CN112052936B

公开(公告)日：2022-06-03

申请号：CN202010720742.7

申请日：2020-07-24

申请人： 清华大学

发明人： 杨君 , 袁凯钊 , 马骁腾 , 芦维宁 , 陈章 , 梁斌

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置，其中，该方法包括：构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

4.

发明公开
基于近似动态规划算法的博弈决策方法及系统有权

公开(公告)号：CN110917622A

公开(公告)日：2020-03-27

申请号：CN201911142525.8

申请日：2019-11-20

申请人： 清华大学

发明人： 芦维宁 , 杨君 , 梁斌 , 赵千川 , 马骁腾

IPC分类号： A63F13/55 , A63F13/56 , A63F13/75

摘要： 本发明公开了一种基于近似动态规划算法的博弈决策方法及系统，其中，该方法包括以下步骤：根据空中格斗游戏的特点，确定多维度特征向量来描述空中格斗过程，并作为近似动态规划算法的特征输入；根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能；利用近似动态规划算法学习出空中格斗游戏的价值函数，在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似，增强了增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

5.

发明授权
基于近似动态规划算法的博弈决策方法及系统有权

公开(公告)号：CN110917622B

公开(公告)日：2021-11-30

申请号：CN201911142525.8

申请日：2019-11-20

申请人： 清华大学

发明人： 芦维宁 , 杨君 , 梁斌 , 赵千川 , 马骁腾

IPC分类号： A63F13/55 , A63F13/56 , A63F13/75

摘要： 本发明公开了一种基于近似动态规划算法的博弈决策方法及系统，其中，该方法包括以下步骤：根据空中格斗游戏的特点，确定多维度特征向量来描述空中格斗过程，并作为近似动态规划算法的特征输入；根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能；利用近似动态规划算法学习出空中格斗游戏的价值函数，在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似，增强了增强学习中的泛化和推广能力，从而在决策策略接近最优的前提下，保证决策的快速性。

6.

发明公开
基于低阶高斯分布的多智能体协同探索方法及装置有权

公开(公告)号：CN112215333A

公开(公告)日：2021-01-12

申请号：CN202010962997.4

申请日：2020-09-14

申请人： 清华大学

发明人： 马骁腾 , 杨以钦 , 陆逸文 , 莫一林 , 赵千川

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置，其中，该方法包括：获取多智能体决策下的状态轨迹，将状态轨迹存入数据缓存器；构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络；基于状态轨迹和值函数分解算法的多智能体协同探索过程，对上述构建的相关网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

7.

发明公开
基于注意力机制的多智能体值函数分解方法及装置有权

公开(公告)号：CN112101564A

公开(公告)日：2020-12-18

申请号：CN202010824845.8

申请日：2020-08-17

申请人： 清华大学

发明人： 杨以钦 , 马骁腾 , 李承昊 , 杨君 , 梁斌

IPC分类号： G06N20/00 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置，该方法包括：获取多个智能体决策下的状态轨迹；构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络；基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程，对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

8.

发明公开
基于生成对抗机制的强化学习探索方法及装置有权

公开(公告)号：CN112052936A

公开(公告)日：2020-12-08

申请号：CN202010720742.7

申请日：2020-07-24

申请人： 清华大学

发明人： 杨君 , 袁凯钊 , 马骁腾 , 芦维宁 , 陈章 , 梁斌

IPC分类号： G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置，其中，该方法包括：构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络；基于生成对抗机制和离线强化学习算法的学习过程，对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类