基于TD3多经验池强化学习的飞行器免解耦姿态控制方法
摘要:
本公开属于航天飞行器控制领域,涉及一种基于TD3多经验池强化学习的飞行器免解耦姿态控制方法,包括:建立飞行器姿态控制任务的马尔可夫过程,确定飞行任务的状态、动作和奖励;采用TD3强化学习算法对行为网络和评价网络进行训练,结合多经验池经验回放算法实现TD3算法中所有神经网络的快速收敛;将TD3算法训练好的行为网络作为神经网络控制器部署到飞行器中实现飞行器的免解耦姿态控制。通过上述算法,可以实现一个多通道免解耦的神经网络姿态控制器的训练,实现算法训练过程较快收敛,且训练出来的控制器对环境噪声及飞行器本体不确定性具有较强的适应能力。
0/0