基于注意力机制的多智能体值函数分解方法及装置

    公开(公告)号:CN112101564B

    公开(公告)日:2024-09-06

    申请号:CN202010824845.8

    申请日:2020-08-17

    申请人: 清华大学

    摘要: 本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

    基于低阶高斯分布的多智能体协同探索方法及装置

    公开(公告)号:CN112215333B

    公开(公告)日:2022-08-12

    申请号:CN202010962997.4

    申请日:2020-09-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置,其中,该方法包括:获取多智能体决策下的状态轨迹,将状态轨迹存入数据缓存器;构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络;基于状态轨迹和值函数分解算法的多智能体协同探索过程,对上述构建的相关网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

    基于生成对抗机制的强化学习探索方法及装置

    公开(公告)号:CN112052936B

    公开(公告)日:2022-06-03

    申请号:CN202010720742.7

    申请日:2020-07-24

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置,其中,该方法包括:构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

    基于近似动态规划算法的博弈决策方法及系统

    公开(公告)号:CN110917622A

    公开(公告)日:2020-03-27

    申请号:CN201911142525.8

    申请日:2019-11-20

    申请人: 清华大学

    IPC分类号: A63F13/55 A63F13/56 A63F13/75

    摘要: 本发明公开了一种基于近似动态规划算法的博弈决策方法及系统,其中,该方法包括以下步骤:根据空中格斗游戏的特点,确定多维度特征向量来描述空中格斗过程,并作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能;利用近似动态规划算法学习出空中格斗游戏的价值函数,在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似,增强了增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。

    基于近似动态规划算法的博弈决策方法及系统

    公开(公告)号:CN110917622B

    公开(公告)日:2021-11-30

    申请号:CN201911142525.8

    申请日:2019-11-20

    申请人: 清华大学

    IPC分类号: A63F13/55 A63F13/56 A63F13/75

    摘要: 本发明公开了一种基于近似动态规划算法的博弈决策方法及系统,其中,该方法包括以下步骤:根据空中格斗游戏的特点,确定多维度特征向量来描述空中格斗过程,并作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能;利用近似动态规划算法学习出空中格斗游戏的价值函数,在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似,增强了增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。

    基于低阶高斯分布的多智能体协同探索方法及装置

    公开(公告)号:CN112215333A

    公开(公告)日:2021-01-12

    申请号:CN202010962997.4

    申请日:2020-09-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于低阶高斯分布的多智能体协同探索方法及装置,其中,该方法包括:获取多智能体决策下的状态轨迹,将状态轨迹存入数据缓存器;构建各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、主协同探索网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络、副协同探索网络;基于状态轨迹和值函数分解算法的多智能体协同探索过程,对上述构建的相关网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于低阶高斯分布的多智能体协同探索算法。

    基于注意力机制的多智能体值函数分解方法及装置

    公开(公告)号:CN112101564A

    公开(公告)日:2020-12-18

    申请号:CN202010824845.8

    申请日:2020-08-17

    申请人: 清华大学

    IPC分类号: G06N20/00 G06N3/04 G06N3/08

    摘要: 本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

    基于生成对抗机制的强化学习探索方法及装置

    公开(公告)号:CN112052936A

    公开(公告)日:2020-12-08

    申请号:CN202010720742.7

    申请日:2020-07-24

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置,其中,该方法包括:构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。