面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备

    公开(公告)号:CN118982061A

    公开(公告)日:2024-11-19

    申请号:CN202411109882.5

    申请日:2024-08-13

    申请人: 江苏大学

    摘要: 本发明公开了一面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备。系统框架采用基于机理模型的数据分析方法建立样本置信度综合量化指标,实现精准、全面、可解释的偏好建模,并依据偏好模型从目标对齐和协同优化角度,解构联邦强化学习算法,实现算法多层级解释;创新采用数据机理双驱动的混合视觉注意力模型,解决传统深度强化学习在城市复杂交通环境下的高维状态空间表征难题,实现高可用性算法表现;该系统将多智能体联邦强化学习协同优化过程建模为可解释的自组织性群体合作过程,通过偏好启发式参数聚合实现模型鲁棒性与样本效率之间的平衡,解决了城市自动驾驶算法可信任难题。

    一种行为模态划分方法、多模态轨迹预测模型的训练方法与推理方法

    公开(公告)号:CN118569382A

    公开(公告)日:2024-08-30

    申请号:CN202410589205.1

    申请日:2024-05-13

    申请人: 江苏大学

    IPC分类号: G06N5/04 B60W60/00 B60W50/00

    摘要: 本发明公开了一种行为模态划分方法、多模态轨迹预测模型的训练方法与推理方法,该方法包括:基于基本驾驶规则划分车辆轨迹的行为模态,构建泛化模态域;基于道路地图元素的模态细化,构建合理的空间引导;智能体编码结果通过多模态解码器输出对应不同高级别控制指令的多模态轨迹预测结果。本发明的多模态轨迹预测模型将基本驾驶规则用于泛化模态的划分,从而聚合具有相似驾驶行为的训练样本,实现更加直观、广泛、有效的模态分类,提升模型训练效率。其次设计了高细粒度的车道级模态细化方法,提升了信息融合的相关性,避免手工设计繁多的候选先验,自然引导生成更加丰富、有效的轨迹预测模态结果。