- 专利标题: 一种细粒度专家行为模仿学习方法、装置、介质及终端
-
申请号: CN202211285500.5申请日: 2022-10-20
-
公开(公告)号: CN115688858B公开(公告)日: 2024-02-09
- 发明人: 漆舒汉 , 孙志航 , 殷俊 , 黄新昊 , 万乐 , 王轩 , 张加佳 , 王强
- 申请人: 哈尔滨工业大学(深圳)
- 申请人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 专利权人: 哈尔滨工业大学(深圳)
- 当前专利权人: 哈尔滨工业大学(深圳)
- 当前专利权人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 代理机构: 深圳市君胜知识产权代理事务所
- 代理商 王永文
- 主分类号: G06N3/04
- IPC分类号: G06N3/04 ; G06N3/08 ; G06F18/214
摘要:
本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。
公开/授权文献
- CN115688858A 一种细粒度专家行为模仿学习方法、装置、介质及终端 公开/授权日:2023-02-03