行为控制策略的学习方法、装置、设备及存储介质
摘要:
本申请公开了一种行为控制策略的学习方法、装置、计算机设备及存储介质,该方法包括:从演示行为数据序列中采样出包括至少两个演示行为数据的演示行为数据片段;依据演示行为数据片段,设置物理仿真器中模拟的目标对象的各个关节的初始状态信息,并利用待训练的神经网络模型确定出目标对象的各个关节的作用力数据;控制物理仿真器中模拟的目标对象的各个关节的运动,以使得物理仿真器基于设定的动作行为限定特征,仿真出的目标对象的仿真行为数据序列;依据演示行为数据及仿真行为数据,确定动作行为差异度;基于动作行为差异度,优化神经网络模型直至达到优化目标。本申请的方案有利于演示学习的对象基于演示动作生成扩展后的动作行为。
0/0