一种基于深度强化学习的作战策略优化方法及系统

发明授权

CN113050686B 一种基于深度强化学习的作战策略优化方法及系统有权

请登陆查看更多内容

专利标题： 一种基于深度强化学习的作战策略优化方法及系统
申请号： CN202110294246.4

申请日： 2021-03-19
公开(公告)号： CN113050686B

公开(公告)日： 2022-03-25
发明人: 董希旺 , 石明慧 , 化永朝 , 于江龙 , 任章 , 吕金虎
申请人： 北京航空航天大学
申请人地址： 北京市海淀区学院路37号
专利权人： 北京航空航天大学
当前专利权人： 北京航空航天大学
当前专利权人地址： 北京市海淀区学院路37号
代理机构： 北京高沃律师事务所
代理商 王爱涛
主分类号： G05D1/10
IPC分类号： G05D1/10

摘要：

本发明公开了一种基于深度强化学习的作战策略优化方法及系统，该方法包括：构建高超声速滑翔弹模型，确定导弹的当前状态；构建神经网络模型，神经网络模型的输入为突防环境，输出为动作集；根据突防环境，基于神经网络模型，得到预测动作集；根据当前状态以及预测动作集，计算导弹的下一步状态并更新高超声速滑翔弹模型；采用Minimax算法计算敌方状态；根据下一步状态以及敌方状态计算奖惩函数；根据奖惩函数优化神经网络模型；基于优化后的神经网络模型得到最优作战策略。本发明具有短距离精确操作和长期规划预测的能力，推演效果符合预期，同时其具有较强的实时决策能力，可以很大程度的提高突防成功的概率，可作为滑翔弹突防的决策依据。

公开/授权文献

CN113050686A 一种基于深度强化学习的作战策略优化方法及系统公开/授权日：2021-06-29

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G05	控制；调节
G05D	非电变量的控制或调节系统（金属的连续铸造入B22D11/16；阀门本身入F16K；非电变量的检测见G01各有关小类；电或磁变量的调节入G05F）
G05D1/00	陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪（无线电导航系统或使用其他波的类似系统入G01S）
G05D1/10	.三维的位置或航道的同时控制（G05D1/12优先）