多任务风险泛化的分布式多无人机策略获取方法及装置
摘要:
本申请涉及一种多任务风险泛化的分布式多无人机策略获取方法及装置,通过采用训练好的风险知识提取网络根据局部观测数据以及历史数据,提取局部观测数据中的环境风险知识,再利用训练好的风险态度选择器根据环境风险知识,生成策略价值分布以及风险态度,利用策略生成网络根据风险态度在策略价值分布中选择对应的区域,生成以风险态度为导向的最优策略。采用本方法可以将对已知任务的学习到的风险知识迁移至未知任务中,从而得到适应于未知任务的最优策略。
0/0