一种基于技能发现与分配的多智能体强化学习方法及装置
Abstract:
本发明公开了一种基于技能发现与分配的多智能体强化学习方法及装置,涉及多智能体强化学习领域。能够解决现有技术中因参数共享导致智能体之间的行为同质化的问题,增强智能体行为的多样性,从而更好的适应需要复杂协调的任务场景,该方法包括:根据参数化的神经网络和每个智能体的观测潜变量得到技能集合包括的每个技能的技能概率;根据下一个时间段智能体待执行的技能、当前时间段智能体的观测潜变量和当前时间段智能体的技能策略得到当前时间段智能体的总价值函数;根据当前时间段智能体的内在奖励、当前时间段智能体的总价值函数、下一个时间段智能体的总价值函数得到智能体的损失函数。
Patent Agency Ranking
0/0