-
公开(公告)号:CN114528750A
公开(公告)日:2022-05-24
申请号:CN202111654873.0
申请日:2021-12-30
IPC分类号: G06F30/27 , G06F30/15 , G06N3/04 , G06N3/08 , G06F111/08
摘要: 本发明涉及一种基于自博弈模型的智能空战模仿学习训练样本生成方法,包括:状态空间设计、动作空间设计、神经网络结构设计以及对抗样本生成;其基于自博弈的思路。该方法可以自动生成大量的高质量训练样本,从而摆脱对人类专家的依赖,降低样本生成的成本。
-
公开(公告)号:CN114462299A
公开(公告)日:2022-05-10
申请号:CN202111651199.0
申请日:2021-12-30
摘要: 本发明涉及一种深度学习算法在多战机协同空域探索中应用的方法,包括:采用六层CNN从传感器获取环境数据提取特征,使多个战机共享同一个PPO网络进行学习,随后选择并实行对应飞行动作。本发明应用于多战机的协同探索这一场景;降低探索所需时间,适当权衡发现敌机的收益与被敌机发现的风险;通过深度强化学习算法,将多个战机协同探索的效率最大化。
-
公开(公告)号:CN114462569A
公开(公告)日:2022-05-10
申请号:CN202111654923.5
申请日:2021-12-30
摘要: 本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法,其采用模仿学习训练空对空对抗算法,采用逆向强化学习算法确定奖励函数;能够确保算法设计出一个合理的奖励函数,保证强化学习算法的收敛与模型的效果;此外,该方法具有通用性,针对不同任务都可以自动设计出一个奖励函数,无需人工设计。
-
公开(公告)号:CN116909144A
公开(公告)日:2023-10-20
申请号:CN202310882080.7
申请日:2023-07-18
摘要: 本发明提供了一种多智能体空战奖励函数设计方法,该方法具体为:多智能体强化学习算法在训练时,每一步根据模拟器返回的当前状态计算奖励函数值;本发明奖励函数能够强化学习算法利用人类的先验知识,更好地实现空战的站位和机动。奖励函数能够指导多智能体之间合理的协作,提高战损比。
-
公开(公告)号:CN116882491A
公开(公告)日:2023-10-13
申请号:CN202310882126.5
申请日:2023-07-18
摘要: 本发明提供了一种多智能体空战强化学习算法超参数确定方法,该方法为基于高斯过程回归的多智能体空战强化学习超参数调整方法,能够自动地确定最优的超参数值。与人工调参相比,有更好的收敛效果,节约人力,无需依赖专家的经验知识。
-
-
-
-