-
公开(公告)号:CN115639746A
公开(公告)日:2023-01-24
申请号:CN202210938319.3
申请日:2022-08-05
申请人: 南京理工大学
IPC分类号: G05B13/04
摘要: 本发明公开一种基于TD3算法的深度强化学习制导律。包括如下步骤:(1):建立导弹与目标的相对运动模型;(2):设计马尔可夫决策过程;(3):构建深度强化学习制导律的网络模型;将构建好的模型进行离线训练,然后利用训练好的网络模型来进行法向加速度的输出;设计马尔可夫决策过程,将视线角速率作为状态空间,将法向加速度作为动作空间,然后在利用确定性策略梯度原理,寻找最优的神经网络参数,然后利用训练好的神经参数,实现从视线角速率到法向加速度的直接映射。
-