专利检索 ap:("罗伯特·博世有限公司" OR "清华大学") AND inv:"马晓健" 第 1 页

1.

发明公开
用于训练用于模仿演示者的行为的神经网络的方法和装置审中-实审

公开(公告)号：CN117441174A

公开(公告)日：2024-01-23

申请号：CN202180098842.3

申请日：2021-05-31

申请人： 罗伯特·博世有限公司 , 清华大学

发明人： 荆明轩 , 黄文炳 , 孙富春 , 马晓健 , 李磊 , 程泽

IPC分类号： G06N3/094 , G06N3/0475

摘要： 本公开内容提供了一种用于训练用于模仿演示者的行为的神经网络(NN)模型的方法。该方法包括：获得表示演示者的用于执行任务的行为的演示数据，演示数据包括状态数据、动作数据和选项数据，其中，状态数据对应于用于执行任务的条件，选项数据对应于任务的子任务，并且动作数据对应于演示者的针对任务执行的动作；基于当前学习的策略来对表示NN模型的用于执行任务的行为的学习者数据进行采样，学习者数据包括状态数据、动作数据和选项数据，其中，状态数据对应于用于执行任务的条件，选项数据对应于任务的子任务，并且动作数据对应于NN模型的针对任务执行的动作，策略由用于确定当前选项的高级策略部分和用于确定当前动作的低级策略部分组成；以及基于演示数据和学习者数据，通过使用生成对抗性模仿学习(GAIL)过程来更新策略。