基于强化学习的机械臂步进式路径轨迹优化方法
摘要:
本发明公开了一种基于强化学习的机械臂步进式路径轨迹优化方法,根据策略函数进行机械臂运动,通过策略优化算法优化策略函数的输出;每次机械臂运动之后,计算绕z轴旋转的关节的旋转角度;当绕z轴旋转的关节基本面向目标点时,锁定对应关节的输出角度值;锁定对应输出角度值后,继续训练,当末端位姿与目标位姿的距离小于一定阈值时,提前终止训练,否则直到训练结束;训练过程中使用奖励函数。本发明步进式训练可以有效的减少学习时间,并以最优姿态快速定位目标点。通过锁定先训练好的关节动作输出值,使得模型通过动用更少的关节,在更短的时间内,达到更好的效果。奖励函数的设计优化了模型规划路径,以最少的动作达到最优的路径。
0/0