一种基于群体非依赖性学习策略的多航天器围捕追逃博弈决策方法
摘要:
本发明公开了一种基于群体非依赖性学习策略的多航天器围捕追逃博弈决策方法,具体包括以下主要过程:以速度脉冲为追逃双方基本策略,建立多航天器围捕追逃博弈优化数学模型;基于近端策略优化框架设计智能学习算法,在此基础上,融合脉冲大小选择、行为切换和任务分配三种决策能力;设计群体非依赖性基本博弈行为集合,并建立以行为奖励核心的奖励函数模型;设计加减速、半强制性行为切换和动态任务分配三种辅助博弈机制。本发明所提算法以底层简单行为作引导,相对传统基于终端距离的智能学习策略,能够提升航天器学习效率和质量,同时所设计辅助机制可有效提升集群博弈的灵活性。该发明具有训练简单、适应性强和实时性强等特点。
0/0