一种强化学习声诱饵奖励值的计算方法、装置

发明公开

CN115587528A 一种强化学习声诱饵奖励值的计算方法、装置审中-实审

请登陆查看更多内容

专利标题： 一种强化学习声诱饵奖励值的计算方法、装置
申请号： CN202211071850.1

申请日： 2022-09-02
公开(公告)号： CN115587528A

公开(公告)日： 2023-01-10
发明人: 康乐 , 孙宝三 , 宋鹏汉
申请人： 中国电子科技集团公司电子科学研究院
申请人地址： 北京市石景山区双园路11号
专利权人： 中国电子科技集团公司电子科学研究院
当前专利权人： 中国电子科技集团公司电子科学研究院
当前专利权人地址： 北京市石景山区双园路11号
代理机构： 工业和信息化部电子专利中心
代理商 焉明涛
主分类号： G06F30/27
IPC分类号： G06F30/27 ; G06N20/00 ; G06F17/18 ; G06F111/08

摘要：

本申请的实施例揭示了一种强化学习声诱饵奖励值的计算方法、装置，其中方法通过建立基于吊放声纳目标识别处理时间、目标识别能力变量，给出声诱饵诱骗的目标成功率和声诱饵出现后的平均识别处理时间，可快速计算奖励值，避免了蒙特卡洛方法时间周期长，影响强化学习智能体训练速度的问题。在一些示例中，结合航空平台识别目标后开展攻击、识别等后续处理典型战等需要的处理时间，对目标成功率进行加权处理，更加准确的计算出声诱饵奖励值，避免了蒙特卡洛方法时间周期长，影响强化学习智能体训练速度的问题。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F30/00	计算机辅助设计（CAD）
G06F30/20	.设计优化、验证或模拟（电路设计的优化、验证或模拟入G06F30/30）
G06F30/27	..使用机器学习，例如人工智能，神经网络，支持向量机[SVM]或训练模型