虚拟环境下的多智能体博弈训练方法及系统

    公开(公告)号:CN114444716A

    公开(公告)日:2022-05-06

    申请号:CN202210011912.3

    申请日:2022-01-06

    摘要: 本发明提出了一种虚拟环境下的多智能体博弈训练方法及系统,该方法包括:S100:构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境。S200:设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则。S300:在虚拟环境中对待训练目标进行多智能体博弈的训练。根据本发明提供的训练方法,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,引入不同的学习算法、能够灵活变更初始想定,具有较高的泛用性和实用性。

    基于行为克隆和改进DQN算法的无人机集群避障方法

    公开(公告)号:CN116360479A

    公开(公告)日:2023-06-30

    申请号:CN202211105893.7

    申请日:2022-09-09

    IPC分类号: G05D1/10 G06N3/092

    摘要: 本申请公开了一种基于行为克隆和改进DQN算法的无人机集群避障方法,包括如下步骤:预先基于障碍物配置无人机避障行为;基于配置的无人机避障行为训练行为克隆网络,以利用所述行为克隆网络进行行为克隆指导;将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用行为克隆网络的更新参数进行协同更新所述DQN网络;将训练好的DQN网络用于无人机集群避障。本申请实施例的无人机集群控制方法在传统强化学习DQN算法中引入距离权,并使用行为克隆的神经网络进行辅助决策,可大大加快算法收敛速度、提升任务成功率。