基于值分布强化学习的感知遮挡下纵向决策方法及系统
摘要:
本发明提供了一种基于值分布强化学习的感知遮挡下纵向决策方法及系统,属于车辆驾驶决策技术领域,获取目标区域的人员识别结果,获取其中的位置信息和速度信息;获取目标区域的环境信息;利用融合谨慎心驱动的值分布式强化学习模型,基于所述环境信息、位置信息和速度信息,预测人员的下一步动作和位置,并依据预测结果,生成纵向决策;融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数,利用谨慎心驱动更新所述函数与环境信息互动后的奖励。本发明基于分布式强化学习与谨慎心驱动方法相融合,有效提升了车辆的通行安全和效率以及算法的泛化能力。
0/0