-
公开(公告)号:CN114462569A
公开(公告)日:2022-05-10
申请号:CN202111654923.5
申请日:2021-12-30
摘要: 本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法,其采用模仿学习训练空对空对抗算法,采用逆向强化学习算法确定奖励函数;能够确保算法设计出一个合理的奖励函数,保证强化学习算法的收敛与模型的效果;此外,该方法具有通用性,针对不同任务都可以自动设计出一个奖励函数,无需人工设计。
-
公开(公告)号:CN114462299A
公开(公告)日:2022-05-10
申请号:CN202111651199.0
申请日:2021-12-30
摘要: 本发明涉及一种深度学习算法在多战机协同空域探索中应用的方法,包括:采用六层CNN从传感器获取环境数据提取特征,使多个战机共享同一个PPO网络进行学习,随后选择并实行对应飞行动作。本发明应用于多战机的协同探索这一场景;降低探索所需时间,适当权衡发现敌机的收益与被敌机发现的风险;通过深度强化学习算法,将多个战机协同探索的效率最大化。
-
公开(公告)号:CN114528750A
公开(公告)日:2022-05-24
申请号:CN202111654873.0
申请日:2021-12-30
IPC分类号: G06F30/27 , G06F30/15 , G06N3/04 , G06N3/08 , G06F111/08
摘要: 本发明涉及一种基于自博弈模型的智能空战模仿学习训练样本生成方法,包括:状态空间设计、动作空间设计、神经网络结构设计以及对抗样本生成;其基于自博弈的思路。该方法可以自动生成大量的高质量训练样本,从而摆脱对人类专家的依赖,降低样本生成的成本。
-
-