基于动态层级通信网络的多智能体强化学习方法及系统

    公开(公告)号:CN113919485A

    公开(公告)日:2022-01-11

    申请号:CN202111216476.5

    申请日:2021-10-19

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于动态层级通信网络的多智能体强化学习方法及系统,方法包括:S100,编码当前时刻观测信息和历史信息,获得当前时刻观测特征和依赖特征,并进行预决策;S200,基于注意力机制,根据预决策信息与观测特征,获取依赖矩阵;S300,基于最小生成树算法,动态生成层级关系网络并进行选择性有向地通信,生成联合决策并与环境交互,收集经验数据;S400,基于线性值分解网络,为每个智能体分配状态‑动作值函数,更新智能体策略网络;S500,基于内在奖励机制,根据演员‑评论家框架更新层级网络参数。在该方法中,多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享,基于条件状态‑动作值分解网络和内在通信奖励,减少环境的非稳态问题,并对联合策略及层级通信协议进行高效的学习和更新。

    基于动态层级通信网络的多智能体强化学习方法及系统

    公开(公告)号:CN113919485B

    公开(公告)日:2024-03-15

    申请号:CN202111216476.5

    申请日:2021-10-19

    IPC分类号: G06N3/045 G06N3/048 G06N3/092

    摘要: 本发明公开了一种基于动态层级通信网络的多智能体强化学习方法及系统,方法包括:S100,编码当前时刻观测信息和历史信息,获得当前时刻观测特征和依赖特征,并进行预决策;S200,基于注意力机制,根据预决策信息与观测特征,获取依赖矩阵;S300,基于最小生成树算法,动态生成层级关系网络并进行选择性有向地通信,生成联合决策并与环境交互,收集经验数据;S400,基于线性值分解网络,为每个智能体分配状态‑动作值函数,更新智能体策略网络;S500,基于内在奖励机制,根据演员‑评论家框架更新层级网络参数。在该方法中,多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享,基于条件状态‑动作值分解网络和内在通信奖励,减少环境的非稳态问题,并对联合策略及层级通信协议进行高效的学习和更新。

    基于贪婪值表征的多无人搬运车调度方法及系统

    公开(公告)号:CN117151390A

    公开(公告)日:2023-12-01

    申请号:CN202311100146.9

    申请日:2023-08-29

    摘要: 本发明提供一种基于贪婪值表征的多无人搬运车调度方法及系统,方法包括构建多AGV团队决策模型以及多评论家评估模型;AGV通过多AGV团队决策模型与环境进行交互,获取训练样本,形成经验缓冲区;从经验缓冲区采样,计算贪婪动作和非贪婪动作对应的值函数,根据贪婪动作值函数来重塑非贪婪动作的目标值函数,进行第一轮策略优化形成优先经验缓冲区;从优先经验缓冲区采样进行第二轮策略优化,得到优先动作样本;将所述优先动作样本输入所述多AGV团队决策模型中,进行训练得到最终的多无人搬运车调度模型,用于生成多AGV的最优协同调度策略。该方法能够消除多智能体调度算法的非最优收敛点,在环境得到充分探索的前提下实现多AGV的最优协同调度。

    基于多视图数据的堆叠场景操作关系检测方法及系统

    公开(公告)号:CN117788910A

    公开(公告)日:2024-03-29

    申请号:CN202311811955.0

    申请日:2023-12-26

    摘要: 本发明提供一种基于多视图数据的堆叠场景操作关系检测方法及系统,涉及机器人操作技术领域,方法包括:将不同视角的场景数据输入特征提取器来获得场景特征;将来自不同视图的图像和对应的场景特征投影到一个公共隐藏空间中,并使用一组冯米尔赛分布拟合嵌入,使得场景特征进行显示分布对齐;显示分布对齐后采用最大垂直角邻居点集来表示每个对象对的相对位置;将每个对象对的相对位置连接多视图二维和三维数据的特征,送入操作关系分类器以预测成对对象的操作关系。本发明通过识别与不同领域的操作关系相关的领域特定特征的关联来增强视图的一致性。

    基于近似同步估计的多AGV调度策略评估与优化方法及系统

    公开(公告)号:CN117032134A

    公开(公告)日:2023-11-10

    申请号:CN202311099265.7

    申请日:2023-08-29

    IPC分类号: G05B19/418

    摘要: 本发明公开了一种基于近似同步估计的多AGV调度策略评估与优化方法及系统,方法包括:构建多AGV共享的策略模型与联合策略评估模型;基于多AGV共享的策略模型与联合策略评估模型,令AGV与环境交互产生训练样本,计算边缘优势函数;根据AGV策略的不确定性,计算更新幅度截断量;在任意环境状态下,根据所述边缘优势函数替代联合优势函数,结合近端策略优化算法,将所述梯度截断量作为策略比值裁剪区间,对每个AGV的策略进行单独优化,直到多AGV调度策略完成优化。该方法能够在AGV调度任务中实现平稳、准确的策略评估,提升训练的稳定性及调度效率。