发明公开
- 专利标题: 一种强化学习声诱饵奖励值的计算方法、装置
-
申请号: CN202211071850.1申请日: 2022-09-02
-
公开(公告)号: CN115587528A公开(公告)日: 2023-01-10
- 发明人: 康乐 , 孙宝三 , 宋鹏汉
- 申请人: 中国电子科技集团公司电子科学研究院
- 申请人地址: 北京市石景山区双园路11号
- 专利权人: 中国电子科技集团公司电子科学研究院
- 当前专利权人: 中国电子科技集团公司电子科学研究院
- 当前专利权人地址: 北京市石景山区双园路11号
- 代理机构: 工业和信息化部电子专利中心
- 代理商 焉明涛
- 主分类号: G06F30/27
- IPC分类号: G06F30/27 ; G06N20/00 ; G06F17/18 ; G06F111/08
摘要:
本申请的实施例揭示了一种强化学习声诱饵奖励值的计算方法、装置,其中方法通过建立基于吊放声纳目标识别处理时间、目标识别能力变量,给出声诱饵诱骗的目标成功率和声诱饵出现后的平均识别处理时间,可快速计算奖励值,避免了蒙特卡洛方法时间周期长,影响强化学习智能体训练速度的问题。在一些示例中,结合航空平台识别目标后开展攻击、识别等后续处理典型战等需要的处理时间,对目标成功率进行加权处理,更加准确的计算出声诱饵奖励值,避免了蒙特卡洛方法时间周期长,影响强化学习智能体训练速度的问题。