基于贪婪值表征的多无人搬运车调度方法及系统
摘要:
本发明提供一种基于贪婪值表征的多无人搬运车调度方法及系统,方法包括构建多AGV团队决策模型以及多评论家评估模型;AGV通过多AGV团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;将所述优先动作样本输入所述多AGV团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多AGV的最优协同调度策略。该方法能够消除多智能体调度算法的非最优收敛点,在环境得到充分探索的前提下实现多AGV的最优协同调度。
0/0