基于强化学习的智能体路径规划方法、电子设备及介质

    公开(公告)号:CN114493013A

    公开(公告)日:2022-05-13

    申请号:CN202210106163.2

    申请日:2022-01-28

    发明人: 禹祎凡 付卫婷

    摘要: 本发明涉及一种基于强化学习的智能体路径规划方法、电子设备及介质,方法包括:根据智能体采集的状态信息,通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作;目标网络的训练过程包括:构建当前网络,目标网络和当前网络均为深度Q值网络,迭代执行目标网络更新步骤,该步骤包括:获取智能体采集的状态信息,进行数据预处理后存储至记忆库,根据优先经验回放机制在记忆库中选择训练样本;选择训练样本和动作,根据动作更改环境信息,获取下一状态的环境信息,根据TD‑error训练当前网络,根据软更新机制更新目标网络,更新样本的选中概率。与现有技术相比,本发明实现难度低,计算效率高,缓解了局部最优问题。