-
公开(公告)号:CN117666559B
公开(公告)日:2024-07-02
申请号:CN202311468384.5
申请日:2023-11-07
申请人: 北京理工大学前沿技术研究院 , 北京理工大学
IPC分类号: G05D1/43
摘要: 本发明公开一种自主车辆横纵向决策路径规划方法、系统、设备及介质,涉及车辆驾驶决策技术领域,包括:在全局路径导航下,基于道路中心线采样偏移量,得到每个步长的位置点;以自主车辆和环境车辆的位置和速度为状态观测量,以在每个步长下所选的位置点为动作量构建横向决策模型,以油门踏板开度和刹车踏板开度为动作量构建纵向决策模型,设计奖励函数,对横向决策模型和纵向决策模型进行训练;根据训练后的横向决策模型选择每个步长的最优位置点,并对每个步长的最优位置点经多项式拟合后得到局部路径轨迹;基于局部路径轨迹,根据训练后的纵向决策模型得到速度控制量,提升在感知遮挡下的决策规划效果。
-
公开(公告)号:CN118182538B
公开(公告)日:2024-08-13
申请号:CN202410612049.6
申请日:2024-05-17
申请人: 北京理工大学前沿技术研究院 , 北京理工大学 , 山东汇创信息技术有限公司 , 山东伟创信息技术有限公司
摘要: 本发明提供了一种基于课程强化学习的无保护左转场景决策规划方法及系统。该方法包括,获取自车辆状态信息和障碍物信息;基于可变数量的障碍物信息,提取空间维度的障碍物特征;所述空间维度的障碍物特征包括多时间维度信息;基于空间维度的障碍物特征,提取多时间维度的空间特征信息;基于多时间维度的空间特征信息,采用多阶段的课程学习方法进行启发式训练,每下一训练阶段,抛弃一个未来时间帧状态,直到抛弃所有未来时间帧特征,得到输入只有当前时间帧和过去时间帧的多维时空的障碍物特征;将多维时空的障碍物特征与自车辆状态信息进行融合,得到融合特征;将融合特征和奖励信息,输入策略网络,经动作解码网络输出自车辆动作信息。
-
公开(公告)号:CN117208019B
公开(公告)日:2024-04-05
申请号:CN202311473564.2
申请日:2023-11-08
申请人: 北京理工大学前沿技术研究院 , 北京理工大学
IPC分类号: B60W60/00 , G06N3/092 , G06F18/213 , G06F18/25 , B60W30/095 , B60W50/00
摘要: 本发明提供了一种基于值分布强化学习的感知遮挡下纵向决策方法及系统,属于车辆驾驶决策技术领域,获取目标区域的人员识别结果,获取其中的位置信息和速度信息;获取目标区域的环境信息;利用融合谨慎心驱动的值分布式强化学习模型,基于所述环境信息、位置信息和速度信息,预测人员的下一步动作和位置,并依据预测结果,生成纵向决策;融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数,利用谨慎心驱动更新所述函数与环境信息互动后的奖励。本发明基于分布式强化学习与谨慎心驱动方法相融合,有效提升了车辆的通行安全和效率以及算法的泛化能力。
-
公开(公告)号:CN117666559A
公开(公告)日:2024-03-08
申请号:CN202311468384.5
申请日:2023-11-07
申请人: 北京理工大学前沿技术研究院 , 北京理工大学
IPC分类号: G05D1/43
摘要: 本发明公开一种自主车辆横纵向决策路径规划方法、系统、设备及介质,涉及车辆驾驶决策技术领域,包括:在全局路径导航下,基于道路中心线采样偏移量,得到每个步长的位置点;以自主车辆和环境车辆的位置和速度为状态观测量,以在每个步长下所选的位置点为动作量构建横向决策模型,以油门踏板开度和刹车踏板开度为动作量构建纵向决策模型,设计奖励函数,对横向决策模型和纵向决策模型进行训练;根据训练后的横向决策模型选择每个步长的最优位置点,并对每个步长的最优位置点经多项式拟合后得到局部路径轨迹;基于局部路径轨迹,根据训练后的纵向决策模型得到速度控制量,提升在感知遮挡下的决策规划效果。
-
公开(公告)号:CN117208019A
公开(公告)日:2023-12-12
申请号:CN202311473564.2
申请日:2023-11-08
申请人: 北京理工大学前沿技术研究院 , 北京理工大学
IPC分类号: B60W60/00 , G06N3/092 , G06F18/213 , G06F18/25 , B60W30/095 , B60W50/00
摘要: 本发明提供了一种基于值分布强化学习的感知遮挡下纵向决策方法及系统,属于车辆驾驶决策技术领域,获取目标区域的人员识别结果,获取其中的位置信息和速度信息;获取目标区域的环境信息;利用融合谨慎心驱动的值分布式强化学习模型,基于所述环境信息、位置信息和速度信息,预测人员的下一步动作和位置,并依据预测结果,生成纵向决策;融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数,利用谨慎心驱动更新所述函数与环境信息互动后的奖励。本发明基于分布式强化学习与谨慎心驱动方法相融合,有效提升了车辆的通行安全和效率以及算法的泛化能力。
-
公开(公告)号:CN118323163A
公开(公告)日:2024-07-12
申请号:CN202410596576.2
申请日:2024-05-14
申请人: 北京理工大学前沿技术研究院 , 北京理工大学 , 山东汇创信息技术有限公司 , 山东伟创信息技术有限公司
摘要: 本发明提供了一种考虑遮挡不确定性的自动驾驶决策方法及系统,包括:获取自车状态信息和环境车辆状态信息;其中,在自车对应的环境车辆中引入虚拟车辆;基于获得的自车和环境车辆的状态信息,采用多帧融合模块获得包含时间信息的自车的状态嵌入和环境车辆的状态嵌入;以及基于自车的状态嵌入和环境车辆的状态嵌入,采用基于交叉注意力机制的关键车辆选择模块,获得全局状态特征;基于获得的全局状态特征,采用预先训练的基于值分布的强化学习模型,获得车辆输出动作,实现自车车辆的自动驾驶决策。
-
公开(公告)号:CN118182538A
公开(公告)日:2024-06-14
申请号:CN202410612049.6
申请日:2024-05-17
申请人: 北京理工大学前沿技术研究院 , 北京理工大学 , 山东汇创信息技术有限公司 , 山东伟创信息技术有限公司
摘要: 本发明提供了一种基于课程强化学习的无保护左转场景决策规划方法及系统。该方法包括,获取自车辆状态信息和障碍物信息;基于可变数量的障碍物信息,提取空间维度的障碍物特征;所述空间维度的障碍物特征包括多时间维度信息;基于空间维度的障碍物特征,提取多时间维度的空间特征信息;基于多时间维度的空间特征信息,采用多阶段的课程学习方法进行启发式训练,每下一训练阶段,抛弃一个未来时间帧状态,直到抛弃所有未来时间帧特征,得到输入只有当前时间帧和过去时间帧的多维时空的障碍物特征;将多维时空的障碍物特征与自车辆状态信息进行融合,得到融合特征;将融合特征和奖励信息,输入策略网络,经动作解码网络输出自车辆动作信息。
-
-
-
-
-
-