- 专利标题: 决策模型的训练方法、装置、设备及存储介质
-
申请号: CN202311266701.5申请日: 2023-09-28
-
公开(公告)号: CN116983656B公开(公告)日: 2023-12-26
- 发明人: 姚兴虎 , 陈悉儿
- 申请人: 腾讯科技(深圳)有限公司
- 申请人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 代理机构: 北京三高永信知识产权代理有限责任公司
- 代理商 徐耿铭
- 主分类号: A63F13/67
- IPC分类号: A63F13/67 ; A63F13/822 ; G06N3/0442 ; G06N3/092
摘要:
本申请实施例公开了一种决策模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:将第一样本对局状态信息以及第一样本任务输入任务网络,得到任务网络输出的第一样本任务参数;基于第一样本任务参数,通过强化学习方式对任务网络进行训练,得到训练后的任务网络;将第二样本对局状态信息输入决策模型,得到决策模型输出的第二样本任务参数,决策模型包括调度网络以及训练后的任务网络,调度网络用于基于第二样本对局状态信息向任务网络输出第二样本任务;基于第二样本任务以及第二样本任务参数,通过强化学习方式联合训练调度网络和任务网络;提高了决策模型的训练效率,且提高了决策模型输出任务参数的准确性。
公开/授权文献
- CN116983656A 决策模型的训练方法、装置、设备及存储介质 公开/授权日:2023-11-03