一种基于强化学习的导弹纵向姿态控制算法

    公开(公告)号:CN111708378B

    公开(公告)日:2023-01-03

    申请号:CN202010572028.8

    申请日:2020-06-22

    Abstract: 本发明提供一种基于强化学习的导弹纵向姿态控制算法,属于导弹姿态控制研究领域,基于强化学习的Actor‑Critic(AC)结构,由动作网络和评价网络构成。其中,评价网络是根据导弹的状态输出对于导弹状态的评价值,动作网络是根据评价网络输出的评价值产生对应的升降舵偏角,从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。步骤如下:步骤1)建立并确定导弹纵向姿态动力学模型;步骤2)定义导弹攻角的跟踪误差,同时建立与误差有关的性能指标;步骤3)设计评价网络;步骤4)设计动作网络;步骤5)设计评价网络权值更新律;步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。

    一种基于强化学习的高超声速飞行器航迹规划方法

    公开(公告)号:CN114815864B

    公开(公告)日:2024-08-20

    申请号:CN202210346557.5

    申请日:2022-03-31

    Abstract: 本发明公开了一种基于强化学习的高超声速飞行器航迹规划方法,本发明根据航迹规划分2个阶段:离线训练阶段,训练一个不依赖于固定环境的RL智能体作为航迹规划的基线策略;在线规划阶段,RL‑CEM利用环境模拟器预测未来的状态进行规划,之后选择优于基线策略的策略作为执行策略,否则将使用基线策略。本发明提出的RL‑CEM不仅有效地回避航迹规划中的局部最优,还展现出了令人满意的成功率。RL‑CEM弥补了以往基于RL的航迹规划方法容易陷入局部最优、规划失败时无替代方案的缺点。本发明的航迹规划方法回避了高超声速飞行器复杂的动力学,仅通过其运动学来解决该问题。

    一种基于强化学习的导弹纵向姿态控制算法

    公开(公告)号:CN111708378A

    公开(公告)日:2020-09-25

    申请号:CN202010572028.8

    申请日:2020-06-22

    Abstract: 本发明提供一种基于强化学习的导弹纵向姿态控制算法,属于导弹姿态控制研究领域,基于强化学习的Actor-Critic(AC)结构,由动作网络和评价网络构成。其中,评价网络是根据导弹的状态输出对于导弹状态的评价值,动作网络是根据评价网络输出的评价值产生对应的升降舵偏角,从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。步骤如下:步骤1)建立并确定导弹纵向姿态动力学模型;步骤2)定义导弹攻角的跟踪误差,同时建立与误差有关的性能指标;步骤3)设计评价网络;步骤4)设计动作网络;步骤5)设计评价网络权值更新律;步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。

    一种基于强化学习的高超声速飞行器航迹规划方法

    公开(公告)号:CN114815864A

    公开(公告)日:2022-07-29

    申请号:CN202210346557.5

    申请日:2022-03-31

    Abstract: 本发明公开了一种基于强化学习的高超声速飞行器航迹规划方法,本发明根据航迹规划分2个阶段:离线训练阶段,训练一个不依赖于固定环境的RL智能体作为航迹规划的基线策略;在线规划阶段,RL‑CEM利用环境模拟器预测未来的状态进行规划,之后选择优于基线策略的策略作为执行策略,否则将使用基线策略。本发明提出的RL‑CEM不仅有效地回避航迹规划中的局部最优,还展现出了令人满意的成功率。RL‑CEM弥补了以往基于RL的航迹规划方法容易陷入局部最优、规划失败时无替代方案的缺点。本发明的航迹规划方法回避了高超声速飞行器复杂的动力学,仅通过其运动学来解决该问题。

Patent Agency Ranking