一种基于逆向强化学习的智能空战奖励函数生成方法
摘要:
本发明涉及一种基于逆向强化学习的智能空战奖励函数生成方法,其采用模仿学习训练空对空对抗算法,采用逆向强化学习算法确定奖励函数;能够确保算法设计出一个合理的奖励函数,保证强化学习算法的收敛与模型的效果;此外,该方法具有通用性,针对不同任务都可以自动设计出一个奖励函数,无需人工设计。
0/0