一种基于对抗强化学习的自动驾驶控制方法

    公开(公告)号:CN117826603A

    公开(公告)日:2024-04-05

    申请号:CN202410010711.0

    申请日:2024-01-04

    IPC分类号: G05B13/04

    摘要: 本发明公开了一种基于对抗强化学习的自动驾驶控制方法,对抗强化学习以PPO算法作为基础算法,基于单智能体环境,构建基于对抗PPO算法的自动驾驶控制模型,在车辆仿真环境中引入主角(Protagonist)和扰动者(Adversary)两个角色,两个角色交互获得目标车的控制权。在目标奖励函数的激励下,通过限制扰动者的动作空间范围和修改目标奖励函数,扰动者在控制车辆行驶时倾向于采取危险驾驶动作最小化奖励,而主角则会最大化奖励,最终主角的控制策略经过一定回合的学习后,获得能够抵抗更多干扰的能力。