一种细粒度专家行为模仿学习方法、装置、介质及终端

发明授权

CN115688858B 一种细粒度专家行为模仿学习方法、装置、介质及终端有权

请登陆查看更多内容

专利标题： 一种细粒度专家行为模仿学习方法、装置、介质及终端
申请号： CN202211285500.5

申请日： 2022-10-20
公开(公告)号： CN115688858B

公开(公告)日： 2024-02-09
发明人: 漆舒汉 , 孙志航 , 殷俊 , 黄新昊 , 万乐 , 王轩 , 张加佳 , 王强
申请人： 哈尔滨工业大学(深圳)
申请人地址： 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
专利权人： 哈尔滨工业大学(深圳)
当前专利权人： 哈尔滨工业大学(深圳)
当前专利权人地址： 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
代理机构： 深圳市君胜知识产权代理事务所
代理商 王永文
主分类号： G06N3/04
IPC分类号： G06N3/04 ; G06N3/08 ; G06F18/214

摘要：

本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端，方法包括，获取智能体的当前环境状态信息，将当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据预测信息控制智能体执行相应动作，采集任务完成情况信息和当前动作的状态信息；根据动作的状态信息计算单次奖励值，根据任务完成情况信息计算任务奖励值；根据单次奖励值及任务奖励值训练预设预测网络模型，将任务奖励值和每局若干单次奖励值相加，得到总奖励值，当总奖励值大于阈值时，完成对预设预测网络模型的训练并将输出的策略返回，上述方法降低了训练难度、提高了训练效率，无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

公开/授权文献

CN115688858A 一种细粒度专家行为模仿学习方法、装置、介质及终端公开/授权日：2023-02-03

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N3/00	基于生物学模型的计算机系统
G06N3/02	.采用神经网络模型
G06N3/04	..体系结构，例如，互连拓扑