基于贪婪值表征的多无人搬运车调度方法及系统

    公开(公告)号:CN117151390A

    公开(公告)日:2023-12-01

    申请号:CN202311100146.9

    申请日:2023-08-29

    摘要: 本发明提供一种基于贪婪值表征的多无人搬运车调度方法及系统,方法包括构建多AGV团队决策模型以及多评论家评估模型;AGV通过多AGV团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;将所述优先动作样本输入所述多AGV团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多AGV的最优协同调度策略。该方法能够消除多智能体调度算法的非最优收敛点,在环境得到充分探索的前提下实现多AGV的最优协同调度。

    基于动态层级通信网络的多智能体强化学习方法及系统

    公开(公告)号:CN113919485A

    公开(公告)日:2022-01-11

    申请号:CN202111216476.5

    申请日:2021-10-19

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于动态层级通信网络的多智能体强化学习方法及系统,方法包括:S100,编码当前时刻观测信息和历史信息,获得当前时刻观测特征和依赖特征,并进行预决策;S200,基于注意力机制,根据预决策信息与观测特征,获取依赖矩阵;S300,基于最小生成树算法,动态生成层级关系网络并进行选择性有向地通信,生成联合决策并与环境交互,收集经验数据;S400,基于线性值分解网络,为每个智能体分配状态‑动作值函数,更新智能体策略网络;S500,基于内在奖励机制,根据演员‑评论家框架更新层级网络参数。在该方法中,多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享,基于条件状态‑动作值分解网络和内在通信奖励,减少环境的非稳态问题,并对联合策略及层级通信协议进行高效的学习和更新。

    基于动态层级通信网络的多智能体强化学习方法及系统

    公开(公告)号:CN113919485B

    公开(公告)日:2024-03-15

    申请号:CN202111216476.5

    申请日:2021-10-19

    IPC分类号: G06N3/045 G06N3/048 G06N3/092

    摘要: 本发明公开了一种基于动态层级通信网络的多智能体强化学习方法及系统,方法包括:S100,编码当前时刻观测信息和历史信息,获得当前时刻观测特征和依赖特征,并进行预决策;S200,基于注意力机制,根据预决策信息与观测特征,获取依赖矩阵;S300,基于最小生成树算法,动态生成层级关系网络并进行选择性有向地通信,生成联合决策并与环境交互,收集经验数据;S400,基于线性值分解网络,为每个智能体分配状态‑动作值函数,更新智能体策略网络;S500,基于内在奖励机制,根据演员‑评论家框架更新层级网络参数。在该方法中,多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享,基于条件状态‑动作值分解网络和内在通信奖励,减少环境的非稳态问题,并对联合策略及层级通信协议进行高效的学习和更新。

    模型训练方法、机器人控制方法、装置、设备及介质

    公开(公告)号:CN117207185A

    公开(公告)日:2023-12-12

    申请号:CN202311237385.9

    申请日:2023-09-22

    IPC分类号: B25J9/16

    摘要: 本申请实施例公开了一种模型训练方法、机器人控制方法、装置、设备及介质,属于计算机技术领域。该方法包括:获取第一历史信息及第一观测信息,通过动作生成模型,基于第一历史信息及第一观测信息,生成第一动作,基于第一历史信息、第一观测信息及第一动作,获取第一机器人的依赖关系,基于依赖关系,获取第二历史信息及第二动作,基于第一历史信息、第一观测信息、第一动作、第二历史信息及第二动作,对动作生成模型进行训练。本申请提供的模型训练方法,能够提升动作生成模型的性能,以保证后续由动作生成模型为同一机器人生成的多个动作之间具有连续性,并能够体现出多个机器人之间的动作的关联性,保证生成的动作的准确性。