机器人控制模型的训练方法、装置和计算机设备

    公开(公告)号:CN117001673B

    公开(公告)日:2024-06-04

    申请号:CN202311172535.2

    申请日:2023-09-11

    IPC分类号: B25J9/16

    摘要: 本申请涉及一种机器人控制模型的训练方法、装置和计算机设备。所述方法包括:针对每一样本时刻,通过策略模型、样本时刻时机器人的状态和运动目标,获得样本时刻时的待执行动作,获取机器人执行待执行动作后在样本时刻的下一时刻时的状态和初始奖励值,并组成样本时刻对应的转移样本;针对每一样本时刻对应的转移样本,获取执行完转移样本中的待执行动作后机器人的实际运动结果、以及根据转移样本中样本时刻相应的状态所映射确定的映射运动结果;根据实际运动结果与映射运动结果间的差异程度,对初始奖励值进行调整,将运动目标更新为实际运动结果;基于转移样本,对包含策略模型的机器人控制模型进行训练。采用本方法能够改善机器人控制效果。

    机器人控制模型的训练方法、装置和计算机设备

    公开(公告)号:CN117001673A

    公开(公告)日:2023-11-07

    申请号:CN202311172535.2

    申请日:2023-09-11

    IPC分类号: B25J9/16

    摘要: 本申请涉及一种机器人控制模型的训练方法、装置和计算机设备。所述方法包括:针对每一样本时刻,通过策略模型、样本时刻时机器人的状态和运动目标,获得样本时刻时的待执行动作,获取机器人执行待执行动作后在样本时刻的下一时刻时的状态和初始奖励值,并组成样本时刻对应的转移样本;针对每一样本时刻对应的转移样本,获取执行完转移样本中的待执行动作后机器人的实际运动结果、以及根据转移样本中样本时刻相应的状态所映射确定的映射运动结果;根据实际运动结果与映射运动结果间的差异程度,对初始奖励值进行调整,将运动目标更新为实际运动结果;基于转移样本,对包含策略模型的机器人控制模型进行训练。采用本方法能够改善机器人控制效果。