基于TD3多经验池强化学习的飞行器免解耦姿态控制方法

    公开(公告)号:CN115857530A

    公开(公告)日:2023-03-28

    申请号:CN202211551858.8

    申请日:2022-12-05

    IPC分类号: G05D1/08

    摘要: 本公开属于航天飞行器控制领域,涉及一种基于TD3多经验池强化学习的飞行器免解耦姿态控制方法,包括:建立飞行器姿态控制任务的马尔可夫过程,确定飞行任务的状态、动作和奖励;采用TD3强化学习算法对行为网络和评价网络进行训练,结合多经验池经验回放算法实现TD3算法中所有神经网络的快速收敛;将TD3算法训练好的行为网络作为神经网络控制器部署到飞行器中实现飞行器的免解耦姿态控制。通过上述算法,可以实现一个多通道免解耦的神经网络姿态控制器的训练,实现算法训练过程较快收敛,且训练出来的控制器对环境噪声及飞行器本体不确定性具有较强的适应能力。

    一种低成本类火箭可回收试验飞行器

    公开(公告)号:CN115556966A

    公开(公告)日:2023-01-03

    申请号:CN202211287350.1

    申请日:2022-10-20

    摘要: 本发明提出了一种低成本的可回收火箭型试验飞行器,用于实现各类运载火箭回收算法、运载火箭智能控制算法的飞行试验验证。飞行器自身结构设计简单坚固易修改,采用推力可调节的航空涡喷发动机可实现火箭下落时的稳定着陆控制。飞行器通过动力系统和执行机构可实现全部六自由度的位置及姿态运动。飞行器配备的控制系统算力较强,通过箭载飞控机与算力强大的数据处理计算机配合,可实现中等规模深度学习算法IP核的搭载和多核并行算法的搭载试验。飞行器飞控软件内部设有容错制导律,可在飞行器试验算法失控时,可切换至容错制导律实现飞行器安全飞行。同时,飞行器头部的应急回收装置可保证执行机构失效时飞行器的安全着陆。

    一种基于强化学习的经验回放缓存池飞行器数据处理方法

    公开(公告)号:CN115828099A

    公开(公告)日:2023-03-21

    申请号:CN202211551857.3

    申请日:2022-12-05

    IPC分类号: G06F18/214 G06N3/04 G06N3/08

    摘要: 本公开涉及一种基于强化学习的经验回放缓存池飞行器数据处理方法,包括:获取飞行器姿态控制多维数据的经验回放缓存池中的样本数据集;将所述样本数据集输入至强化学习神经网络进行计算得到该样本数据集的累计奖励值;判断所述累计奖励值与预设阈值之间的大小关系,当所述累计奖励值与预设阈值满足第一大小关系时将所述样本输入至所述经验回放缓存池中的第一样本池;当所述累计奖励值与预设阈值满足第二大小关系时将所述样本输入至所述经验回放缓存池中的第二样本池;当进行经验回放采样时,在所述第一样本池和所述第二样本池之间进行采样。通过上述方法可以保护稀有样本的比例有利于强化学习的准确性。