一种改进的强化学习AGV路径规划方法

    公开(公告)号:CN117826713B

    公开(公告)日:2024-09-10

    申请号:CN202311561107.9

    申请日:2023-11-22

    IPC分类号: G05B19/418

    摘要: 本发明公开了一种改进的强化学习AGV路径规划方法,其步骤为:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;设计奖励值函数;设计SR‑PPO算法,将样本正则化项添加到PPO算法的目标函数中;基于SR‑PPO算法设计SR‑ALR‑PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合,自适应选择策略网络参数更新的学习率;基于SR‑ALR‑PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型。本发明提出了一种改进的强化学习AGV路径规划方法,基于样本正则化和自适应学习率提高了AGV的自主规划能力,获得最优无碰撞路径,最大限度地减少AGV运行时间和能耗。

    一种改进的强化学习AGV路径规划方法

    公开(公告)号:CN117826713A

    公开(公告)日:2024-04-05

    申请号:CN202311561107.9

    申请日:2023-11-22

    IPC分类号: G05B19/418

    摘要: 本发明公开了一种改进的强化学习AGV路径规划方法,其步骤为:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;设计奖励值函数;设计SR‑PPO算法,将样本正则化项添加到PPO算法的目标函数中;基于SR‑PPO算法设计SR‑ALR‑PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合,自适应选择策略网络参数更新的学习率;基于SR‑ALR‑PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型。本发明提出了一种改进的强化学习AGV路径规划方法,基于样本正则化和自适应学习率提高了AGV的自主规划能力,获得最优无碰撞路径,最大限度地减少AGV运行时间和能耗。