一种基于强化学习的航天器自主交会对接制导策略生成方法
摘要:
本发明公开了一种基于强化学习的航天器自主交会对接制导策略生成方法,包括:将航天器交会对接过程建模为马尔科夫决策过程模型;采用动态规划算法对马尔科夫决策过程模型进行求解,得到所有状态采取不同动作的得分,生成决策表;将决策表中的所有状态作为训练数据特征,将决策表中所有状态在每个动作下的得分作为训练数据标签,以此构建训练数据;构建神经网络模型,并采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型;对于某一个状态,通过得到的神经网络模型计算该状态下所有动作的得分,选择得分最大的动作作为最优制导策略;基于最优制导策略,航天器进行自主交会对接。
0/0