一种强化学习声诱饵奖励值的计算方法、装置
摘要:
本申请的实施例揭示了一种强化学习声诱饵奖励值的计算方法、装置,其中方法通过建立基于吊放声纳目标识别处理时间、目标识别能力变量,给出声诱饵诱骗的目标成功率和声诱饵出现后的平均识别处理时间,可快速计算奖励值,避免了蒙特卡洛方法时间周期长,影响强化学习智能体训练速度的问题。在一些示例中,结合航空平台识别目标后开展攻击、识别等后续处理典型战等需要的处理时间,对目标成功率进行加权处理,更加准确的计算出声诱饵奖励值,避免了蒙特卡洛方法时间周期长,影响强化学习智能体训练速度的问题。
0/0