一种主任务和辅助任务并行的智能体分配方法及装置
摘要:
本发明涉及强化学习和多智能体博弈技术领域,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。方法包括:基于ATP框架,确定团队主任务以及个人辅助任务,根据Actor‑Critic框架,确定团队策略以及个人策略,确定团队策略中执行动作的奖励和每个个人策略中执行动作的奖励;根据个人策略、个人策略中执行动作的奖励、团队策略以及团队策略中执行动作的奖励,确定个人策略与团队策略之间的相似度;将经验放置到ATP框架的经验池中,并对经验池中的经验进行排序;以相似度为约束,基于经验池的经验回放机制,对个人策略和团队策略分别进行更新。采用本发明,可以在提高多智能体任务训练效率的同时,促进智能体间的合作,不会增加额外的计算负担。
0/0